lxmlを使って楽天レビューを取得する

楽天APIではレビューが取得できないので、HTMLをスクレイピングした。今まではBeautifulSoupを使ってたんだけど、lxmlがHTMLにも使えるとしったので使ってみた。lxmlはXPathが使えるんだけど、楽天のHTMLがぐちゃぐちゃすぎてかなり苦労した。

ソース

from lxml import etree
from StringIO import StringIO
w_url = "http://review.rakuten.co.jp/rd/2_213310_12781481_0/"
html = urllib2.urlopen(review_url).read().decode("euc-jp")
root = etree.parse(StringIO(html),parser=etree.HTMLParser())
a =[x.strip() for x in root.xpath("//td[@width=\"99%\"]/font/text()") if len(x.strip())>1 ]

for b in a:
    print b

実行結果

たくさんの人が久保田の手にかかって…。時任を助けようとする久保田は一心不乱、極悪非道といった感じでした。でもわたしは2人がほのぼのしているときが好きなので、今回はちょっと暗かった…。
最後まで目が離せません。1冊の中に起承転結があるのでついつい新刊が出ると手が出ます。
微妙な進行速度です。今回は久保田の方に重点が置かれている巻でした。時任の過去もちらりというところで終了。基本的に綺麗な絵ですが、漫画中一部バランスが…なところが個人的には気になりました。
雑誌では購入せず、単行本待ちなので前巻から長かったです。いや今回もアンダーグラウンドな世界です。次も楽しみです。
救いがないのがリアルっぽくて、ご都合主義じゃないのが魅力だと思って買っていたシリーズなものの、久々に読んだら救いのなさに感じる痛みが自分の中で強くなってしまっていました(^^;でも話が気になるので最後までお付き合いするつもりです。
面白いです。凄い… 謎も少しずつ明かされていますが、次巻辺りで大きく動くでしょうか?
毎回色々な展開を見せてくれますね。今回も絶対に期待を裏切ることはありませんでした。一巻から読み直してしまいました。
新刊が出るたびごとに、1巻から読み返しています。忘れてしまうから・・・。
続きが気になりますねぇ。WAのナゾが解明するまでお付き合いさせていただきます。
ふふふ… 待ってました『久保時』峰倉氏のカラーってホント良いわノンビリまったりの久保田くんも良いけど やはり こ〜でなきゃ!
あの二人の続きが見られるのですね…すごく楽しみにしています!