入力と出力の複数の変数

私は、相談の理由により、診断の可能性を予測しようとしています。私はすべてのデータにIDを持っています。だから私のデータの種類は以下のようになります

Reason            | Diagnosis
------------------------------
448, 124          | 9
551, 448, 122     | 9, 12
111, 110          | 32
143               | 43

トレーニングデータには最大10の理由と5つの診断があります。

私がアルゴリズムまたはモデルで探しているのは、入力として1 - 10のreason_idsを受け入れ、%の確率で診断のための上位5つの可能性を返すということです。

私はPythonに優れているので、オープンソースのモデルやコードがあればそれを見ることができます。

1
マルチクラスのマルチラベル分類器を使用し、診断を出力クラスにし、その理由をバイナリ入力(理由が当てはまらない場合は0)にします。 こちらを使用してください。
追加された 著者 David,

1 答え

これには2通りの方法があります。

直感的に言えば、理由がXとYの場合、診断はZとなるようなルールを推測しようとするようなものです。

最も一般的なアルゴリズムは実装が簡単な Apriori です。

  • 分類/教授学習

あなたの機能はバイナリである可能性があります(理由Xが適用されない場合は0、あれば1)。それぞれの理由ごとに1つずつ、複数の理由の組み合わせなど、さまざまな理由がある場合は、いくつかの問題が発生する可能性があります(機能は非常に疎です)。

このような場合は、次元を減らして、より高密度にすることができます。

0
追加された