なぜ回帰を通じた分類に近づかないのですか?

機械学習教材は、回帰によって分類問題に近づけることは悪い考えだと言いました。しかし、データに合わせて連続的な回帰を行い、連続的な予測を切り捨てて離散的な分類を行うことは常に可能だと思います。だからなぜそれは悪い考えですか?

3
これは、 stats.stackexchange.com または metaoptimize.com/qa を参照してください。
追加された 著者 Fred Foo,

1 答え

分類を行う場合、誤分類に関連するものを最適化する必要があります。正しいクラスを予測することだけが気になります。回帰をしているときに、予測と実際の値との間の歪みを最小限に抑えたいとします。平均自乗誤差は、回帰の一般的なペナルティ関数です。

最終的に分類を行うことになる回帰分析のパラメータを最適化すると想像してください。ここでは明らかにクラス1ですが、ラベルが非常に大きい例があります。この例での損失を最小限に抑えるには、この例の予測を極端にするために重みをずらす必要があります。しかし、今ではあなたの分類の境界線が大きく動いてしまい、分類精度が損なわれています。あなたは、必要がないときに過剰補償しました。

このグラフは、例を誤って予測したことの関数として重みを移動する量として表示できます。

Loss function plot

ここでの損失関数の大部分は誤分類損失の上限です。誤分類で上界を最適化するモデルは、分類をよくします。回帰を分類に使用することは、二乗誤差の損失を選び、最適化したいものを本質的に誤って表すことに似ています。これは、分類がますます自信を持っているにもかかわらず、二乗誤差の損失におけるグラフの右側への上方へのシフトに対応し、良好な分類損失関数はすべて0またはそこに行く。

優れた統計学習理論の要素から得た画像。

11
追加された
+1ですが、平均二乗誤差の対比については、 hunch.net/?p=211 を参照してください。分類における最適化基準としての分類誤差。
追加された 著者 Fred Foo,