Python

思い出し: python, lxml + urllib2

 
使わないとすぐ忘れてしまうので,調べながら使う.特に日本語取ってくる場所の文字化けとリダイレクトの文字化けで悩んだ.リダイレクト用とhtmlの解析用にとりあえずUTF-8を指定したけど,実際どれが本当に必要なのかよく分からない辛い.

# redirect
import sys, codecs
sys.stdout = codecs.getwriter('utf-8')(sys.stdout)

#decode for html string
response = urlopen(url)
html     = response.read()
dom      = fromstring(html.decode("utf-8"))

あと少し気になったのがXPath,毎回まったく覚えられない.うーん・・・(習っているはずだが).まぁとりあえず,ちょっとしたこと書くのは楽ちんで良いですよね.タイトルとURLを調べるのに使いました.
cdiv  = dom.xpath("//ul[@class='arc_list']")

例:
【二次・ZIP】「ゆうべはおたのしみでしたね」的な朝チュン事後画像,http://momoniji.com/other/asachun20140123
【二次・ZIP】アイマスで一番美しい四条貴音ちゃんの画像を下さい!!,http://momoniji.com/anime-game/shijoutakane20140123