使わないとすぐ忘れてしまうので,調べながら使う.特に日本語取ってくる場所の文字化けとリダイレクトの文字化けで悩んだ.リダイレクト用とhtmlの解析用にとりあえずUTF-8を指定したけど,実際どれが本当に必要なのかよく分からない辛い.
# redirect import sys, codecs sys.stdout = codecs.getwriter('utf-8')(sys.stdout) #decode for html string response = urlopen(url) html = response.read() dom = fromstring(html.decode("utf-8"))
あと少し気になったのがXPath,毎回まったく覚えられない.うーん・・・(習っているはずだが).まぁとりあえず,ちょっとしたこと書くのは楽ちんで良いですよね.タイトルとURLを調べるのに使いました.
cdiv = dom.xpath("//ul[@class='arc_list']")
例:
【二次・ZIP】「ゆうべはおたのしみでしたね」的な朝チュン事後画像,http://momoniji.com/other/asachun20140123
【二次・ZIP】アイマスで一番美しい四条貴音ちゃんの画像を下さい!!,http://momoniji.com/anime-game/shijoutakane20140123