[Python]Twitterのfavoritesが3200でカンストしたらしい

Twitterでふと思ったのが,favoritesがカンストしている.
具体的には今年の3月ぐらいからの分しか残ってなかった.3200個.
うわあああああああ(そこまで大事なものは入っていない)
でもfavoritesはread it laterの気分で使ってるから,もしかしたら…
仕方ないから今手に入る分だけでも手に入れておこう.

# !/usr/bin/python
# -*- encoding: utf-8 -*0
# coding: utf-8

import urllib2
import feedparser
import os, sys, string, codecs

# favのrssをダウンロードしてくる.
pages = 1
def download():
    if not os.path.exists("./tmp"):
        os.mkdir("./tmp")
    for i in range(1, pages+1):
        url =  "http://twitter.com/favorites/38431714.rss?page=%d" % i
        try:
            opener = urllib2.build_opener()
            img = opener.open(url)
            localfile = codecs.open( "./tmp/page%d.rss" % i, 'wb' , encoding='utf-8')
            localfile.write(img.read())
            img.close()
            localfile.close()
            print "Page%d.rss -- DONE" % i
        except Exception, e:
            print e

def main():
    # rssをdownloadする.
    print "DOWNLOAD BEGAN"
    download()
    print "DOWNLOAD FINISHIED"

    # 出力ファイル
    fout = open("./tmp/favorites.txt", "w")

    for i in range(1, pages+1):
        filename = "./tmp/page%d.rss" % i
        if not os.path.exists(filename):
            pass
        else:
            try:
                fdp = feedparser.parse(filename)
            except:
                print "(Error) can not get the RSS..."
                sys.exit(1)
                
            for entry in fdp['entries']:
                title = ""
                link = ""
                date = ""
                
                if ("updated" in entry): date  = entry['updated']
                if ("title" in entry):   title = entry['title']
                if ("link" in entry):    link  = entry['link']
            
                fout.write("Date:\t\%s\n" % date)
                fout.write("Title:\t%s\n" % title.encode("utf-8"))
                fout.write("Url:\t%s\n\n"   % link)

if __name__ == "__main__":
    main()



なんか直接RSS読めなかったから一度ファイルをダウンロードしている.
結果は./tmp/favorites.txtにべーってテキストで入れたけど…誰得なんだろう.
結果はこんなの.
使ってるURLは僕の(@taki0313)なので.

Date:	\Fri, 11 Feb 2011 07:18:20 +0000
Title:	wk77: 「カーネル法入門」「言語処理のための機械学習入門」「入門 自然言語処理」「多変量解析入門」。今どきの入門ってまじ大変だぜ…。
Url:	http://twitter.com/wk77/statuses/35960814238310400

Date:	\Fri, 11 Feb 2011 06:42:33 +0000
Title:	langstat: あるテキスト分類実験の結果。ナイーブベイズ64.4%、回帰木 73.8%、ニューラルネットワーク73.3%、サポートベクターマシン74.9%、バギング82.2%、ブースティング86.8%、ランダムフォレスト88.7% → やはり集団学習、特にランダムフォレストは強力だな。
Url:	http://twitter.com/langstat/statuses/35951806529933312

Date:	\Thu, 10 Feb 2011 17:00:26 +0000
Title:	Sunitha: [まどかマギカ]今回の話で、「魔法少女になったら戦いから逃れられない理由」がはっきりした。魂であるソウルジェムが汚れたら、自分自身が汚れてしまう、だから、魔女を殺して自分を維持し続けるしか無い。………なんだよこれ…。
Url:	http://twitter.com/Sunitha/statuses/35744915543556096



とりあえず取れるデータは拾ってEvernoteにでも入れておこう.



追記

実際に使ってみると,page80〜140ぐらいで失敗する.
規制か何かだと思うけど,しばらく間を空けると実行出来ました.

返信を残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です