サンプル範囲外のパラメータを持つデータの回帰予測モデルを改善するにはどうすればよいですか?

私は予測モデルを改善するためのいくつかの方法を模索してきましたが、これまでのところ見つけられませんでした。私は予測のために使用する10の数値的特徴を含むデータを持っています。私はランダムフォレスト回帰モデルを使用し、列車のセットで完璧に機能します(完璧な部分はオーバーフィットによるものです)。

しかし、そのモデルの特徴の一部が標本データの範囲内にないというデータポイントに対して、モデルはうまく機能していません。たとえば、パラメータxはサンプルでは0〜2000の間ですが、予測する新しいデータポイントの値はxの3000です。

これはデータの制限によるものだと知っていますが、サンプルを生成したり予測を改善する方法があるのだろうかと思います。

このパラメータを除いた単純なモデルを作成したかったのですが、これは私のモデルで最も重要なパラメータです。

どんなヒントもありがとうございます。

1
オーバーフィットの問題は、サンプル・パラメータのデータが不足すると大きく拡大されます。
追加された 著者 Bemmu,

1 答え

私は有力な木の学習者がNearest Neighborの亜種のように行動したケースに遭遇しました。彼らはいくつかの意味のある軸(私の場合は緯度と経度で)近くの例が残るように検索スペースを分割することを学びます。これは、それらの機能を共有したテストセットの例には一般化できますが、実際には見えない例は一般化できません。別の方法で言えば:この方法はうまくいくルールを見つけるのに十分強力ですが、あなたが望むやり方では一般化しないでください。まず、私は2つのことを助けました:まず、KNNを使ってドメインのこの特性をテストしました。機能空間のサブセット(それは魅力的に機能していました。これは、私が同じ宇宙時間座標であった例が特定の歴史を共有したことを理解するのに役立ちました.2番目のアクションは列車空間でそれらの例を取り除き、完全に座標(空間と時間)列車のセット。この行動があなたのケースでどこにあるのかをコードで覗いてみることはできませんが、おそらく私の逸話が役立ちます。

1
追加された