2次元K平均クラスタリングでxとyを求める方法は?

最近、我々はK平均クラスタリングを教えられました。私はアルゴリズムの基本的な考え方を理解し、それを1次元のデータに首尾よく実装しました。 2次元データ用に実装するように指示されています。私が理解する限り、xとyはデータセットの2つの属性ですが、私たちの教授はそうではないと言いました。彼女は、データをクラスタリングするためにデータセット内の属性のxとyを決定しなければならないと述べました。彼女は、例として単純な2D行列を使用しました。これは私を混乱させてしまった。どのようにして属性のxとyを決定できますか?行番号と列番号は私には距離計算のためにそれを使用するために愚かなようです。

だから、私の質問は、2-D kがクラスタリングを意味するために、xとyをどのように決定するのだろうか?

この質問に従って、2つの属性(重みと高さ)がxとy。これは正しいです?

1

3 答え

K-Meansは、主に高次のデータセットのクラスタを見つけるために使用されるアルゴリズムです。私は一次元のデータセットに使われているK-Meansを見つけたことはありません。

したがって、2D K-Means(またはさらに高次元)は次のように動作します。

  1. 必要なクラスタの数を決めます(k値)。
  2. k個のランダムな2D(またはより高次元の)点(セントロイド)を初期化します。
  3. データセットの各ポイントに、最も近い重心が割り当てられます。
  4. 重心位置は、前記重心に割り当てられたすべての点の平均値に更新されます。停止条件に達するまでステップ3から繰り返します。

あなたの2番目の質問については、それは正しい方法であり、その質問に対する答えが正しく説明されています。

1
追加された

k-平均の「距離」は、すべての属性の平方和です。あなたが持っている属性の数は関係ありません。

d(a, b) := sum_i (a_i - b_i)²

あなたが属性を反復するところでは、aはデータベクトルであり、bは重心ベクトルです。

1つまたは2つの属性があると仮定しないでください。これは単にデータセットのパラメータ、変数の数です。 42の変数である可能性があります。

0
追加された

私は、例のように高さと重さのような2つの数値属性のクラスタリングの例では問題はありません。

私が考えることのできる唯一のことは、翻訳の途中で失われてしまったことです。あなたの教授は、多くの次元(属性)を2つに減らし、それらの派生した次元をクラスタリングするという概念を説明しようとしていました。これは、複雑なデータセット内のクラスタを視覚的に見つけようとする一般的な手法です。

0
追加された