現時点では、プロセスが一般的なように見えるので、単一のツールが支配的に上昇していると思われます。開始URLを指し、フォームとスクリプトと相互作用し、リンクに従ってデータをダウンロードします。リンス、繰り返します。私はいつもハードドライブ上に数百ギガの文書を手に入れるために特別なアプリケーションを構築することで一定の満足感を得ていますが、私は単にホイールを作り直すだけではないのだろうかと思います。
私は、Automation Anywhereのような商用製品を試していないことを告白していますが、私が本当に好きなことを全面的にやり遂げようとしているので、データを取得するのではなく分析しています。私は群衆の知恵を期待していますここで私は決定的な議論の方向に向けることができます。単一のツールでほぼすべての状況に対応するには、あまりにも多くの欠点がありますか?
そして私にこれを明確にしたり複雑にさせてもらいましょう - 私はiRobot、iOpusのようなブラウザの "マクロ"タイプのツールを見て、それらが遅いことを発見しました。真剣に大規模なドキュメントのコレクションについては、私はクラスタ/クラウド上でクローラを実行したいので、これらの環境でどのように動作するのか分かりません。私の使用例では、
- 約100万件のドキュメントを検索
- ログインする必要はないが、javascriptを利用してナビゲートするサイトから。
- AmazonまたはAzureサーバーを使用して作業を行います。
例として、米国国勢調査のこのサイト(データを取得するより効率的な方法がありますが、サイトのスタイルはデータ量とナビゲーションの良い例です):
http://factfinder2.census.gov/faces/nav/jsf/pages/searchresults.xhtml?ref=addr&refresh=t