Javaコードでは、どのようにランダムなhtmlページのテキストを抽出できますか?

私はこのように解決した:

String url = ("http://www.repubblica.it/economia/finanza/2011/10/27/news/la_fine_dell_incertezza_solleva_le_azioni_bancarie_in_borsa_alle_italiane_mancano_15_miliardi_di_capitale_met_di_unicredit-23967707/");

Document doc = Jsoup.parse(new URL(url), 2000);

Elements body = doc.select("body");

String s=body.text();

System.out.println(s);

私はまだ別の問題があります。私はタイトルのないメインのテキストを欲しいだけです。誰が私を助けることができます?


私はウェブサイトからテキストを抽出するアルゴリズムが必要です。私はこのテキストをタグ、クラスなどからきれいにして、このアルゴリズムをどのWebページにも適用したいと考えています。

For example for this page

私は主なテキストが必要です:

ミラノ - パトリソニオ・デッレ   maggiori banche europeeèarrivato。 L'Eba(l'Autoritàdi controllo   bancaria europea)、必要とする、2012年、   毎週10万5千ユーロで30ユーロの欧州通貨   重要なこと。スーは、赤字の70%   patrimonialeèdi 160 miliard ...............

For this page

私は主なテキストが必要です:

TORINO - Chrysler Sui conti Fiatのエコセット。 Il Lingotto archivia il   テルソのトリメストは17,6ミリアディ(8,4ネロ   ステソトリメストレ2010)。 Piùche triplicato l'utile della gestione   256キロ851ミリアンペアのordinaria che passa da。 Due terzi arrivano da   デトロイトチェ................

ありがとう

0
2つのこと:まず、あなた自身の解決策に着いて受け入れられたとマークした場合は、自己回答を使用してください。これを行うには質問を使用しないでください。第二に、新しい質問がある場合は、新しい質問をしてください。
追加された 著者 Kev,
この宿題ですか?
追加された 著者 ewok,
あなたはapache http commonsを試すことができます
追加された 著者 nidhin,

2 答え

ボイラープレートライブラリをお試しください。

もう一つの選択肢は意味のある方法でコンテンツにインデックスを付ける Apache Tika を探ることです。

"メインテキスト"の定義は大部分が不可能であることに注意してください。サイトを知っている場合は、テンプレートを理解して何らかの前提を立てることができます。 ランダムのサイトを横断するのは難しいです。ボイラパイプ/ティカのようなものが出てきます。

2
追加された

私はちょうど Jsoup を発見しました。

これらの行に沿って何かが "div_Id"からそのテキストを抽出すると思われます

Document doc = Jsoup.connect("http://www.repubblica.it/economia/finanza/2011/10/27/news/la_fine_dell_incertezza_solleva_le_azioni_bancarie_in_borsa_alle_italiane_mancano_15_miliardi_di_capitale_met_di_unicredit-23967707/").get();
String text = doc.body().id("div_Id").text()

私はこのライブラリの熟練者ではありませんが、実際にはhttpCommonsClient

2
追加された