緯度経度座標の加重クラスタリング

私は四角形にグループ分けされた数百万の緯度の長いポイントを持っています。いくつかの正方形には何千もの点があり、他の点には2つの点があります。アイデアは、正方形に関連する重み付けを持つ正方形に対して1組のlatの長さがあることです。これは、数百万の行のデータをクラスタ化する代わりに、アイテムの数に基づいて四角形に関連しています。

私はもともと仲間集会アルゴリズムを使用していました。私のクラスターのそれぞれがカバーすべき距離。これは私のユースケースには理想的ですが、今は正方形の重さを考慮してクラスタの四角形に使用したいと思います。これは基本的に私のための学習経験であり、どんな助けも大いに評価されるだろう

私は役に立つかもしれないこれを見ましたが、私は実際にはありませんそれと前進できる

以下は、Rと空港についてのいくつかのサンプルデータです

df <- read.csv('https://raw.githubusercontent.com/plotly/datasets/master/2011_february_us_airport_traffic.csv')

ggplot(df, aes(x = long, y = lat)) +
  geom_point()

sample <- df %>% 
  select(long, lat, arrivals = cnt)
1

1 答え

リーダーのクラスタリングは非常にシンプルなので、重みは違いはありません

距離がしきい値よりも小さい場合、クラスタにポイントを割り当てます。ポイントの重みが1であるか、100の「正方形」であるかは関係ありません。

0
追加された
こんにちは@ Anony-Mousse、私はアルゴリズムがとても好きです。しかし私たちのITアーキテクトは、学習経験のために1/4程度ごとに100万データポイントを与えることはできないと合理的に言いました。彼らが私に与えることができるのは、私が興味を持っているエリアの10×10平方メートルのグリッドです。それらの四角形のそれぞれに含まれるポイントの数を教えてください。これは、データをほぼ20分の1に減らします。代わりに、これらの四角形をクラスタリングして、四角形内に含まれるアイテムの数に重み付けを付ける場合があります。
追加された 著者 Thorsten,
......正方形自体は、1つの緯度経度座標の重心を持ちます。上記の例では、各空港に多数の到着がある空港データセットを使用して問題を近似しています。その空港への到着が多くなればなるほど、その空港/スクエアの引き込み力は高くなります
追加された 著者 Thorsten,
こんにちは@ Anony-Mousse、フィードバックに感謝します。スケーラビリティの観点で合意しました。それは私たちのためにうまくいっただけでなく、良い結果をもたらしました。 lat-lonのウェイトを使用して私のユースケースに役立つアルゴリズムを推薦することができますか?
追加された 著者 Thorsten,
まあ、リーダーをグリッドマップ上でうまく使うことはできません。リーダーのみは距離(重量ではなく)を使用しており、体重情報はのみあるためです。あなたがおそらく代わりに行うべきことは、ローカルマキシマを見つけることです。
追加された 著者 Brandon Haugen,
スケーラビリティは、アルゴリズムを好む理由としても非常に悪いことです。ランダムなパーティションのスケールはさらに優れています。
追加された 著者 Brandon Haugen,