Haskellのテキストブロックからキーワードを抽出する方法

だから私はこれが一種の大きな話題であることを知っていますが、私はテキストの塊を受け入れ、そこから最も興味深いキーワードを抽出する必要があります。テキストはテレビのキャプションから来るので、テーマはニュースからスポーツ、ポップカルチャーの参考文献までさまざまです。テキストが表示される表示の種類を指定することは可能です。

私は何とか面白いと知っている用語の辞書とテキストを一致させる考えがあります。

どのライブラリがHaskellにとってこれを手伝うことができますか?

興味深い用語の辞書とデータベースを格納するデータベースがあると仮定すると、テキスト内のキーワードを一致させるための特別なアプローチがありますか?

私が考えていない明らかなアプローチはありますか?

7

2 答え

私はその塊の中の言葉を抹消して、その辞書の中のすべての言葉を探します ただ2つのランダムなlibs:

stem http://hackage.haskell.org/packages/archive/stemmer/0.2/doc/html/NLP-Stemmer-C.html

search http://hackage.haskell.org/packages/archive/sphinx/0.2.1/doc/html/Text-Search-Sphinx.html

2
追加された

bpgergoの答えを拡張するには(しかし、私はhaskell固有の情報はありません)、リレーショナルデータベースに文書を入力してSOLR/luceneまたはsphinxで索引付けするのは簡単です。どちらもデフォルト/推奨設定。そして、 "興味深い用語"リストのペア、トリプルなどを持つドキュメントを検索することができます

名前付きエンティティ認識、統計的に珍しいフレーズ検出、自動タグ生成、そのようなトピックを見ることができます。 Lingpipeは、これらの本も始めるのに適しています:

http://alias-i.com/lingpipe/demos/tutorial/read -me.html

http://www.manning.com/marmanis/excerpt_contents.html

http://www.manning.com/alag/excerpt_contents.html

1
追加された