ウェブサイトを持っているので、私はそれからコンテンツを抽出したいと思います。これまで私はRegexをNotepad ++で使ってきましたが、
- we all know we should not use Regex to parse HTML
- due to a redesign of the website, getting the Regex right is almost impossible
可能な回答については、 1 、 2 、 3 、 4 がありますが、それらはすべてPython + ScrapyまたはJSoupになっています。
- プログラマー以外のユーザー向けのツールを探しています。
- 視覚的に要素を選択できます(レンダリングされたHTMLではなく、HTMLソースでも可能です)。
- "XPaths"(または同様のXML XPathの理解が可能)のリストを作成する
- スケジュールされたジョブで後でGUIなしで抽出を再実行できます
その他の要件
- WindowsまたはUbuntu
- 商用ソリューションは大丈夫です