HTMLからテキストを抽出するツール

ウェブサイトを持っているので、私はそれからコンテンツを抽出したいと思います。これまで私はRegexをNotepad ++で使ってきましたが、

  1. we all know we should not use Regex to parse HTML
  2. due to a redesign of the website, getting the Regex right is almost impossible

可能な回答については、 1 2 3 4 がありますが、それらはすべてPython + ScrapyまたはJSoupになっています。

  1. プログラマー以外のユーザー向けのツールを探しています。
  2. 視覚的に要素を選択できます(レンダリングされたHTMLではなく、HTMLソースでも可能です)。
  3. "XPaths"(または同様のXML XPathの理解が可能)のリストを作成する
  4. スケジュールされたジョブで後でGUIなしで抽出を再実行できます

その他の要件

  1. WindowsまたはUbuntu
  2. 商用ソリューションは大丈夫です
3

1 答え

非プログラマー向けのツール

     

"XPaths"のリストを作成する

ほとんど矛盾した要件は、まだまともな著名なスクレイピングソフトウェアは、両方で良いです。それらのリストを参照してください:

彼らの短い説明

1
追加された
@トーマス、私はあなたのコメントに応じて更新しました。
追加された 著者 Stuart Carnie,
@トーマス、真;それでもそれは他のすべての基準に一致します...
追加された 著者 Stuart Carnie,
ソフトウェア勧告へようこそ。ここでのルールの1つは、あなたが提案するツールの経験があることです。もう1つのルールは、ソフトウェアがどのように要件を満たしているかを述べることです。それらのすべてがXPathのような言語を提供し、抽出を再実行するためのコマンドラインツールを提供していますか?
追加された 著者 JasonMichael,
CloudScrapeはWebサービスであり、アプリケーションではありません。 "雲の中のすべて"
追加された 著者 JasonMichael,
製品の詳細な説明がない回答のリストは、一般的には眉をひそめます。 必要なものをチェックしてください答えは高品質ですか?
追加された 著者 Yossi,