入札者の呼び出しの勝者を予測する方法

Introduction: Lately I've been looking into different machine learning methods to work around different business problems. By now I have a good, basic understanding of most regression and classification methods, and I'm able to use these methods to predict numeric values given other numeric values and/or simple categories (e.g. an employee's salary given age, years of experience and level of education) or a binary classification (e.g. will this employee leave the company based on the same variables).

What I'm looking for: However, I haven't found the right method for the problem I initially wanted to solve, which involves predicting a non-numeric, non-binary value from a mix of numeric and categorical data. I'm not looking for an in-depth explanation of how to solve the exact problem, but merely advise on which techniques/methods to look into. Ideally something that could be done with R.

The business problem: I have historical data on public tenders (i.e. public sector instutions buying goods/services from private contractors through calls for tenders). The data includes variables like:

  • Orderer - i.e. who announced the tender (1 of ~150 municipalities/state insitutions)
  • Type of procurement (1 or more of thousands of industrial classification codes)
  • Estimated value of contract - A numeric value estimating the value of the contract (at a point before the winner is chosen).
  • Winner - i.e. which contractor won the tender (1 of ~2000 private companies)

私がしたいことは、3つの他の変数が与えられたときに入札者の勝者を予測することです。明らかに回帰問題ではなく、私が知っている分類方法は問題を扱うには不十分と思われます。データはきれいで合理化されています(異なる発注者/請負業者名の代替スペルはありません)。何を調べるかについての任意のアイデア?

0
あなたは、「不十分」とはどういう意味かを詳しく説明しなければなりません。あなたが記述しているのは、複数クラス(すなわちバイナリではない)の分類問題です。それは確かに難しくなる。
追加された 著者 CalZ,
右。私が意味することは、私が慣れ親しんだバイナリ分類方法だということだと思います。カテゴリのデータをエンコードする作業は、これらのカテゴリに非常に多くのレベルがある場合、問題が多いようです。私。どのパラメータがモデルにとって重要であるかを評価することは難しい(P値を見る)。
追加された 著者 SPRob,

1 答え

クラシファイアが2000の可能な値の1つを予測しようとするのは難しいでしょう。一般的なアプローチは、可能なターゲット/ラベルをバケット化するか、問題を分解する方法です。例えば:

  • 正確な勝ち企業を予測するのではなく、勝者を同様のグループに分けてグループを予測します。たとえば、勝者が大企業、中小企業、または独立したコンサルタントになるかどうかを予測します。
  • 調達の性質は、購入者や購入する商品によって異なる場合があります。どの会社がFortune 500企業のビジネスに勝つかを予測するのに良いモデルは、おそらく小さな都市のビジネスを勝ち取っている人とは異なる構造を持つでしょう。同様の方法で、誰が橋を建設するのかについての競争は、異なるものになり、新しいウェブサイトの導入に入札する企業は含まれなくなります。データを類似の競技に分割し、結果を予測しようとします。これにより、潜在的なターゲットの数を減らすという副作用が期待されます。
1
追加された
モデル内では間違いなく起こる可能性がありますが、アルゴリズムがその分離を選択するのに十分な例がない場合は保証はありません。たとえば、複数の市場でプレーしている一部の大型入札者や、単一市場に集中している入札者が混乱する可能性があります。大規模な入札者が1つの市場では90%、別の市場では10%であれば、単純に普及していないことを知っているときには10%のノイズを考慮する可能性があります。
追加された 著者 CalZ,
ありがとう。あなたはあなたの前提に絶対に合っています。それが理にかなっていれば、このパーティションは「予測モデルの中で」起こるだろうと思いましたか?例えば。特定の発注者(特定の地方自治体)と特定の産業コード(例えば橋梁)の組み合わせは、2000年の可能な企業からおそらく10年にかけて、分野をかなり早く絞り込むべきである。最も有望な勝者になります。だから私がしなければならないことは、おそらくフィールドを徐々に狭める一連の予測でしょうか?
追加された 著者 SPRob,