統計的なスコアによってより良い方法を実現する

私は7000のデータインスタンスを持っています。

私はそれらのインスタンスを人間が手作業で採点しています(参考文献)。

私は自動的にデータのスコアを決定するために異なるエンジンを持っています。

私は各列にあるエンジンのスコアとマニュアルで採点されたデータの1列を記述するExcelシートを持っています。

私はどちらのエンジンがExcelの関数、プログラミングを使って人間の得点に近づいているのかを知りたいのですが、単純な数学を教えてもらうだけです。

データ採点は-3.0から+3.0

そのアプリケーションにはC#、Excelシートには.NET ExcelのCOMライブラリを使用します。

-更新-

統計的に言えば、エラーを説明する最善の方法は人間のスコアが中立(0)に近づく傾向があることを意味しますが、エンジンのスコアは偏っている傾向があります(1.5 +/-を超える)。適切な方法でエラーを説明して誇張する最良の式です。

1
@Mranz「エンジンのどれが人間の得点に近いのか知りたいです....」
追加された 著者 SKandeel,
@ MerlynMorgan-Graham通常、各エンジンのスコアの平均値を取って、手作業のスコアに近づく/近づけるように指示します。
追加された 著者 SKandeel,
プログラミングよりも統計分析の方がいいと思われるので、クロス検証でこの質問をお試しください。
追加された 著者 AakashM,
質問は何ですか?
追加された 著者 Mranz,

3 答え

平均二乗誤差を使うことをお勧めします。各データインスタンスについて、各エンジンの差の2乗を計算します。これはエラーを誇張し、正の数を与えます。次に、各エンジンの平均二乗誤差を取る。最も低いのは、人間にとって「最も近い」推定量である。

4
追加された
あなたが意味する平均2乗誤差(+7000すべての誤差の合計/ + 7000)?
追加された 著者 SKandeel,
はい、それはそれが実現するものです。
追加された 著者 Captain Coder,

通常、人間の得点からエンジンスコアを差し引いて絶対値を取って、合計7000を合計することによって行われます。最小の合計を持つエンジンが最も近いです。

1
追加された
それは必ずしも最良ではありませんが、これを行う方法の1つです。たとえば、エンジン1にはすべての点にばらつきがありますが、全体の平均はエンジン2よりわずかに優れていますが、その差は常に人間の得点の数%以内です。どちらが良いですか?
追加された 著者 Jim Mischel,

データセット間のユークリッド距離は、すべてのデータポイントが同じであれば十分であるはずです範囲。わかりやすくするために、データインスタンスには番号が付けられ、エンジンには文字が表示されます。データポイント i に与えられたスコアが H_i であり、エンジン a によって与えられたスコアが Ea_i >の場合、エンジン a のエラー(特定のエンジンを「閉じていない」)は次のようになります。

ERROR(a) = (H_1 - Ea_1)^2 + (H_2 - Ea_2)^2 + … + (H_7000 - Ea_7000)^2

最も近いエンジンは、エラーが最も小さいエンジンです。

1
追加された