jsoupを使ってWikipediaの記事で特定のリンクを抽出するにはどうすればよいですか?

I am doing an NLP project and I need to know how to extract links that only are in the "introduction" section and in the "geography" section of this wikipidia page: http://en.wikipedia.org/wiki/Boston

手伝っていただけませんか?

2
@beerbajayそれは重複ではありません! select()メソッドを使用してウィキペディアの記事の特定のセクションからリンクを抽出する方法を知りたい
追加された 著者 Ema,
あなたの質問への回答ではありませんが、 Wikimediaのダウンロードを使う方が簡単です。データベースバックアップダンプ
追加された 著者 Tomasz Nurkiewicz,
何を試しましたか?セクションヘッダーを示す別の

が見つかるまで要素を反復処理する必要があるようです。

追加された 著者 Dave Newton,
@beerbajayこれは関連していますが、明らかに重複ではありません。なぜなら、これは個々の要素を具体的に尋ねるからです。
追加された 著者 Dave Newton,
追加された 著者 beerbajay,

1 答え

ウィキペディアはこれを簡単にはしません。私はこれをエレガントにするか、非常に再利用可能であると主張しません。

    Document doc = Jsoup.connect("http://en.wikipedia.org/wiki/Boston").timeout(5000).get();

    Element intro = doc.body().select("p").first();
    while (intro.tagName().equals("p")) {
        //here you will get an Elements object which you can
        //iterate through to get the links in the intro
        System.out.println(intro.select("a"));
        intro = intro.nextElementSibling();
    }

    for (Element h2 : doc.body().select("h2")) {
        if(h2.select("span").size() == 2) {
            if (h2.select("span").get(1).text().equals("Geography")) {
                Element nextsib = h2.nextElementSibling();
                while (nextsib != null) {
                    if (nextsib.tagName().equals("p")) {
                        //here you will get an Elements object which you
                        //can iterate through to get the links in the 
                        //geography section
                        System.out.println(nextsib.select("a"));
                        nextsib = nextsib.nextElementSibling();
                    } else if (nextsib.tagName().equals("h2")) {
                        nextsib = null;
                    } else {
                        nextsib = nextsib.nextElementSibling();
                    }
                }
            }
        }
    }
}
0
追加された
ありがとう!!!私はあなたのコードを試して、導入セクションはうまくいっています...私は地理セクションについて同じことを言うことはできません:いくつかのリンクが見逃され、いくつかは気候セクションからです!とにかく良いステップです!どうもありがとうございました。解決策を見つけたら教えてください!私も同じことをします! :)
追加された 著者 Ema,
私はそれが同じだと思います!!!今私は逃したものを理解する!リンクは地理学の冒頭に含まれています(地理学の第1段落)。
追加された 著者 Ema,
ごめんなさい、最初のバージョンが動作しています!それは私の間違いでした...今、私はウィキペディアの他のページとチェックしています!
追加された 著者 Ema,
だから...あなたのコードは、ボストン、マサチューセッツ、ニューイングランドのようないくつかの記事で動作しますが、ロンドンでは動作しませんでした!なぜ私は理解しようとします! :) 再度、感謝します
追加された 著者 Ema,
この行を挿入する:要素intro = doc.select( "table.infobox + p")。first();要素intro = doc.body()。select( "p")。first();トリックを作った! :Dとにかくありがとうございました:)
追加された 著者 Ema,
nextsib = nextsib.nextElementSibling();という行を移動しました。 System.out.println(nextsib.select( "a"))の下にあります。それはそれを修正する必要があります。
追加された 著者 B. Anderson,
記事が同じように配置されている場合にのみ機能します。 Wikipediaは、セクションを分割したり、選択をもっと簡単にする要素にIDとクラスを使用したりしないため、このような画面スクレイピングをかなり困難にします。また、記事が正確に同じフォーマットに従う必要がないので、偏差があればコードが破られる可能性があります。
追加された 著者 B. Anderson,
特にロンドンの場合、最初の

タグはポストコードを指し示すものです。紹介を保持する3番目または4番目の

タグによく似ています。また、

タグにはタグが1つのみ含まれていますが、ボストンの記事には2つのタグがあります。奇妙な。

追加された 著者 B. Anderson,