ECML/PKDD2013に参加しました(1/?)

 
9月23日から9月27日まで,チェコのプラハで開催されていたECML/PKDD2013に参加していました.ECML/PKDDシリーズは初めての参加で略称を(特にPKDDの)知らなかったのですが,The European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databasesというらしいです.ヨーロッパにおける機械学習とデータベースからの知識発見に関する国際会議です.会議の構成は,最初と最後・月曜日と火曜日がワークショップ関係で,真ん中の三日間が本会議になっていました.伝統的にこの構成?
 
ドイツからプラハに行くにはいくつか方法がありますが,デュッセルドルフ国際空港から飛行機で行きました.1時間ほどで着きます.会場の場所が分かりづらかったのですが,看板が出ていたおかげで助かりました.しかし最寄りの地下鉄より会場へつながる道の反対方向に看板が出ているというエキセントリックな設定なんだよな….

初日は並列で複数個のワークショップ及びチュートリアルの構成だったので,LML: Languages for Data Mining and Machine LearningMML: Music and Machine Learningに出て,午後はグラフに関するチュートリアルに参加しました.

cocomoffia_20130922_004

cocomoffia_20130922_006
 
cocomoffia_20130922_012

LML: Languages for Data Mining and Machine Learning


LML — Languages for DM/ML, workshop at ECML/PKDD 2013

このグループの人たちのやっている理想というのは,基本的には様々な機械学習・データマイニングの実装に関するパラダイムをどうやって改善して,いい方向に進めていくのか,ということです.

  • R/Python/Matlab: 自分でコードを書く
  • Weka/Orange/XXX Miner系: いくつかのパーツをくみ上げていく
  • Solver系: Solver用のDSLを使って処理を投げ,結果だけうまくもらう
  • データベースとクエリー系: そのままSQLを中心にいろいろ

というように,一口でML/DMの実装をするといってもいろいろな選択肢があるので,そこに注目した議論全般を行います.このワークショップに対応するのかどうかは分かりませんが,ワークショップとは別に,本会議の木曜日に,宣言的なDM/MLというセッションがありました.

Invited Talkは主にSensor/Sensitive dataに関する話とTrajectory analysis/Transportation networkの可視化・解析などに関するもの.結構面白かったです.特にネットワーク(ネットワークというよりも,軌跡というのが正しい?)にデータマイニングかけるときの様々な話題についての,ちょっとした話が多くて良かったです.

どうやって可視化するかというのは直ぐに問題になりますが,そのバッドノウハウトークから,小さい範囲での利用(ネットワーク全体ではなく,例えばある都市におけるネットワークについて)において,こういう工夫をして利用者の意見を見ていますよ〜,こんな感じでデータ処理をしていますよ〜,という話でした.

その他のワークショップの論文は,もちろん論文に依る+全部見ていないのですが,実装や処理系の実現に関してどのような問題があり,解決していくことが出来るか?という話が多かったと感じます.もしくは,こういう用途に使いたいために,こういうDSLがあると嬉しい,という割とユーザ目線の話ですね.

もちろんちょっとした処理(もしくは処理の組み合わせ)であれば,既存の技術を組み合わせることで新しいDSLを作ることはそんなに難しくないですから,そのあたりの試行錯誤が見れて楽しかったです.実際にはシステムがスケールするか,必要な機能を全部提供できるか,というのは別の話としてあるわけですが….(例えば生物系研究者がどのようにデータ処理技術を使いながらデータ処理を行うだろうか?ということを考えると,どうしても現段階で実現できることと,本当に必要なこと,のギャップが生じます.)

MML: Music and Machine Learning


6th International Workshop on Machine Learning and Music (MML13)

音楽とデータマイニング・機械学習技術では,大きく分けて二つの取り組み方があって,1つは音楽を波として見ることで,信号処理を駆使して何か処理を行う立場で,もう1つは楽譜やコード譜などの記号表現を中心に処理を行うものです.今回自分が見たワークショップの範囲では,どちらかというと記号表現とした場合の機械学習に関するタスクを取り扱っている話が多かっ多様に感じました.おそらく,クラス分類についての発表がたまたま固まっていたからだと思います.音楽関係では

  • 楽譜に関するパターン発見: 対象がそもそも楽譜~記号列だ
  • 楽曲のクラス分類: 楽曲を楽譜で見るか,音の波として見るかに依る
  • 自動作曲: だいたい記号的に生成する

みたいなことをやるわけですね.いやはや.

最近流行している深層学習(Deep Learning)を利用したものもありましたが,そこまで複雑なDeep Netを利用しているようではなく,凄く簡単な範囲ですね.というか1RBMって言ってた気がします.利用されている技術は,どちらかといえば画像や自然言語処理で利用されている技術が多いという印象ですね.

他の音楽系会議だとどうなるのでしょうか?そもそも音楽系会議はそんなにあるのかどうか知らないのですが,一応このワークショップも2009,2010,2011,2012,2013と開催されているので,地道に研究者がいろんなところで頑張っているのだろうと思います.いくつかの新しい発見としては,この研究領域でよく使われているような手法がどうもあるらしいということ,またデータセットについても何らかの共有された知見らしきものが見えること,Journal of New Music Researchといった学術雑誌があること,などです.こういうことは実際に話を聞いたり,ディスカッションしてみないと気付かないというか,そもそも存在すら分からなかったりするので,参加して無駄ではないですね.

午後チュートリアル: Mining and learning with network-structured data


グラフに関する機械学習・知識発見の俯瞰的なチュートリアルを基本として,特に学習について先進的な話題を交えながらのチュートリアルである.基本的なイントロから始まり,大きな話題としてはグラフマッチングのmorphismと,その判定方法(グフが小さい場合,そうではない場合)と,グラフが関係した機械学習についてであった.

公式サイトのチュートリアルから,スライドを見るのがよい.
Tutorials

夜チュートリアル: Unsupervised learning with graphs: a theoretical perspective


スピーカーさん: Ulrike von Luxburg

たぶん,スピーカーさんのNIPS2013に出てる論文のイントロみたいなチュートリアルトーク.基本的にSupervised k-NN GraphUnsupervised k-NN Graphについての話である.特にUnsupervised k-NN Graphについてがほとんどである.そもそもk-NN Graphをよく知らないのですが,イメージだけで言うと

  • 確率密度関数を考える
  • そこからいくつかの点xについて値yをサンプリングする
  • サンプリング点をグラフのノードとする
  • ある点xについて,yの値が近い順にk個のサンプリング点に対して辺を張る
  • 辺のラベルとして,xとx’に対応した値の距離かなんらかの類似度の値を振る

という感じです.こうして作られたk-NN Graphは,

  • 各ノードの節点の次数が密度推定として使える
  • 最短経路と値の差分(?)や距離がうまく対応付けられる

という性質があり,なかなか良さそうに見えます.しかし実際には確率密度関数がよく分かっていないであったりとか(これは想像),いろいろな事情で辺の重さがつけられないとき(これも想像),どうやってこのグラフを作ることができるのか(なぜ作りたいのか?)を考えたい.そこでUnsupervised k-NN Graphである(たぶん).
※この一文はほとんど私の妄想ですね

そこで具体的に辺の重みを類似度等で振るわけではなく,

  • 重さに距離を振るのではなく,距離の大小関係だけに基づいて辺を振る

というようにグラフの構成方法を少し変更します.こうすることでまた別のグラフを生成できるようになる.しかし,こうして作ったグラフでは次数による密度推定や距離との対応付けが上手くいかなくなってしまうという問題がある.これをどうやって回避したら良いだろうか?つまりUnsupervised k-NN Graphだけから,元の情報は復元出来るのだろうか?という話が,チュートリアルの話題でした.

パスの付け方を工夫して頑張ったり(遠回りパス),後はベクトル量子化に関するお話の二部構成(?)

チュートリアルトークだけでは,残念ながら,細かい部分は….全体的に見知らぬ単語が結構あったにも関わらず,分かった気になったのはスピーカーの技量が凄く高いからだと思います.

二日目以降も近いうちに書きます.その気になれば来月でも,再来月でも可能…

返信を残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です