casperjs でサイトをクロール

Pocket

忘れそうなので、メモ

ウェブサイトをスクレイピングしたいときには、
普通のサイトの場合、PHP の simple_html_dom.php を使ってます

名前の通り、dom のように html を扱えるので、
simple_html_dom.php は簡単に使えるので楽なんですよね

ただ、simple_html_dom.php では、HTML をそのまま取得するだけです

topsy.com のような ajax バリバリのサイトだと、
ブラウザが HTML を取得した後に javascript でゴニョゴニョしたりするので、
本当にスクレイピングしたいものが取れなかったりします

そんな時は casperjs。

casperjs なら ajax バリバリのサイトもクロールできたりします

クローラー作成したいならここのサイトが参考になります

 

コメントを残す