lxmlを使って楽天レビューを取得する

楽天APIではレビューが取得できないので、HTMLをスクレイピングした。今まではBeautifulSoupを使ってたんだけど、lxmlがHTMLにも使えるとしったので使ってみた。lxmlはXPathが使えるんだけど、楽天のHTMLがぐちゃぐちゃすぎてかなり苦労した。

ソース

from lxml import etree
from StringIO import StringIO
w_url = "http://review.rakuten.co.jp/rd/2_213310_12781481_0/"
html = urllib2.urlopen(review_url).read().decode("euc-jp")
root = etree.parse(StringIO(html),parser=etree.HTMLParser())
a =[x.strip() for x in root.xpath("//td[@width=\"99%\"]/font/text()") if len(x.strip())>1 ]

for b in a:
    print b

実行結果

たくさんの人が久保田の手にかかって…。時任を助けようとする久保田は一心不乱、極悪非道といった感じでした。でもわたしは2人がほのぼのしているときが好きなので、今回はちょっと暗かった…。
最後まで目が離せません。1冊の中に起承転結があるのでついつい新刊が出ると手が出ます。
微妙な進行速度です。今回は久保田の方に重点が置かれている巻でした。時任の過去もちらりというところで終了。基本的に綺麗な絵ですが、漫画中一部バランスが…なところが個人的には気になりました。
雑誌では購入せず、単行本待ちなので前巻から長かったです。いや今回もアンダーグラウンドな世界です。次も楽しみです。
救いがないのがリアルっぽくて、ご都合主義じゃないのが魅力だと思って買っていたシリーズなものの、久々に読んだら救いのなさに感じる痛みが自分の中で強くなってしまっていました(^^;でも話が気になるので最後までお付き合いするつもりです。
面白いです。凄い… 謎も少しずつ明かされていますが、次巻辺りで大きく動くでしょうか?
毎回色々な展開を見せてくれますね。今回も絶対に期待を裏切ることはありませんでした。一巻から読み直してしまいました。
新刊が出るたびごとに、1巻から読み返しています。忘れてしまうから・・・。
続きが気になりますねぇ。WAのナゾが解明するまでお付き合いさせていただきます。
ふふふ… 待ってました『久保時』峰倉氏のカラーってホント良いわノンビリまったりの久保田くんも良いけど やはり こ〜でなきゃ!
あの二人の続きが見られるのですね…すごく楽しみにしています!

今まで触ってきた言語

色々触ってきて好きな言語と嫌いな言語が自分の中ではっきりしてきたのでまとめておく。そこまで色んな言語に触った訳でもないけど^^;

好きな言語

python

全然使いこなせてないけど、最近の中では一番好き。インデントだけでブロックを表現できるから、無駄な{}を入力しなくて良い。それに他の言語に比べて覚える構文とか少ないし。例えばfor文は書き方一つしかないし、switch文もない。シンプルなのが良い。あとDjangoも良いフレームワークだけども、これはRailsとかとそんなに変わらないから好きな理由には挙げにくい。

javascript

いつまでたっても片思いのままだけど、文法とかは結構好きかも。最近プロトタイプの書き方覚えて楽しくなってきた。誰でも気軽に取り組めるのはいいね!

ruby

みんなはおれがruby嫌いみたいに思ってるかもしれないけど、別に嫌っては無い。むしろどちらかというと好き。僕がrubyを使わないのは、「最近流行ってるから…」という中学生みたいな理由である。

Java

昔は好きだったけど、今となってはそんなに好きな言語ではないけど、自分があまり悩まずに書ける数少ない言語だからどちらかというと好きということしておく。Eclipseがちゃんと動くPCがあればそれなりにさくさく書けるから、嫌いではない。ただあまりお薦めしたくない。

嫌いな言語

C

とりあえずコンパイルしなくちゃだめな時点でアウト。
あと文字列くらい用意しとけ。

PHP

と$と->が僕を嫌いにさせた。
どんだけshiftを押させるねん
あとオブジェクト指向が中途半端な気がするのはおれだけ?

perl

色んな書き方があるのはわかったけど、そんなに覚えられません><
まぁ、そんなに触った事が無いから、ちょっと勉強すれば好きになる可能性はある

ActionScript

好きとか嫌いとか判断できるほど触ってない。
何となく嫌いという事にしておく。コンパイルいるし


なんとなくOOPができない言語は嫌いなのかもと思った。