OCRは、高度にターゲット設定されている場合、分割して実行できますか? (小辞典)

私は、単語を照合するために辞書を使用するオープンソースのocr(おそらくtesseract)を探しています。たとえば、このocrは特定の名前の検索にのみ使用されることがわかります。私はマスターゲストリスト(書いてあります)を持っていて、このリストをocrで1秒以内にスキャンし、これを名前のデータベースに対してチェックしたいとします。

私は伝統的なocrがすべての手紙を読むことを試みることができ、100の名前で結果を参照することができますが、これは時間がかかりすぎることを理解します。 ocrがちょうどそれらの100の言葉に焦点を当てていて、それ以外のものがなければ、それは分割された秒ですべてを行うことができるはずです。つまり、「Jach」はデータベースの名前ではないため、単語が「Jach」であると推測することはできません。 ocrは、それがデータベースの実際の名前であるため、 "Jack"であると推測できるはずです。

これは可能ですか?

2

1 答え

それは可能でなければならない。あなたのOCRが 'J'を探すのではなく、個々のシンボルとして「Jack」を直接探すことができます。

ですから、あなたのOCRを訓練/校正するときは、個々のシンボルの場合と同様に、単語全体のイメージでトレーニングしてください。

(この機能がOCRで直接利用できない場合は、最初に単語全体のイメージを一意のシンボルにマップし、後でそのシンボルを最終ワード文字列に変換します)

2
追加された
どうもありがとうございました!
追加された 著者 fusilli.jerry89,