ディレクトリ内のファイルからWikipediaのマークアップを解析する

私はluceneのExtractWikipediaツールを使用して、最新の英語wikiページのbz2ダンプを抽出しました。結果の.txtファイルには、ウィキペディアのマークアップ言語が含まれています。ディレクトリ上の各ファイルの内容のみを解析するツールやPythonスクリプトはありますか? (つまり、コンテンツのみを含むようにファイルを変更し、マークアップはしない)

あるいは、これを実現できるJavaライブラリやパッケージがありますか?私はそれをLuceneクラスのExtractWikipediaに統合したいと考えています。

0

1 答え

あなたはこれを試すことができますwikiprepそれは準備ができているPerlのスクリプト(あなたが最初にperlをインストールする必要があります)

  • wikimarkup言語を削除する
  • 下位カテゴリを生成する
  • リダイレクトを削除します
  • 簡単に解析できるXML形式を生成します

http://www.cs.technion.ac.il/~ gabr/resources/code/wikiprep/

すべてのウィキペディアダムを実行するには数時間かかることがあります 6GBのRAMについては大容量のメモリが必要な場合があります

0
追加された