忘れそうなので、メモ
ウェブサイトをスクレイピングしたいときには、
普通のサイトの場合、PHP の simple_html_dom.php を使ってます
名前の通り、dom のように html を扱えるので、
simple_html_dom.php は簡単に使えるので楽なんですよね
ただ、simple_html_dom.php では、HTML をそのまま取得するだけです
topsy.com のような ajax バリバリのサイトだと、
ブラウザが HTML を取得した後に javascript でゴニョゴニョしたりするので、
本当にスクレイピングしたいものが取れなかったりします
そんな時は casperjs。
casperjs なら ajax バリバリのサイトもクロールできたりします
クローラー作成したいならここのサイトが参考になります