初ISMIRに行ってきた(3)

ISMIR最終日にてMIREXに参戦したコード認識システムのポスターを貼ってきました。

Late breaking demoに交じり、一番奥の一番奥で陣取り待機。

半月ほど前より別の動機でデモンストレーション用のブラウザアプリを組んでいたのですが、出力した特徴量を可視化する機能のおかげで、ポスター発表の場で説明がかなりしやすくなったので組んでおいて本当に良かった。僕にしては激レアな良決断。

二、三時間くらいポスターの横に立って、10数人ほどに話を聞いて貰えました。自分のアイデアはわりとスムーズに来訪者に伝わったと思います。MIREXコード認識タスクキャプテンJohan Pawels氏や、ChordinoのMatthias Mauch氏など、超引用している論文の方々も見に来てくれてミーハー心がひそかに爆発。評価して頂けて嬉しかったです。

ポスター撤収とともにISMIRもほぼほぼ閉幕です。お疲れ様でした。

国際カンファレンスに参加するのも、ポスター発表も初めてで毎日が新鮮尽くしの一週間でした。最初は人のポスター発表を聞きに行くだけでも超ぎこちなかったです。世界中から集まった研究者や学生らが、至るところで互いに討論し合う姿をみて「ひぃ・・・自分には割り込む度胸もシェアできるネタも無いんですけど・・・」と縮こまってしまい、あんまりアクティブに振舞えた方ではなかったと思いますが、それでもこの一週間の見聞は自分が見える世界を大きく広げてくれました。

元々修士課程の終了が迫るにつれて、MIR研究への意欲もちょっぴり限界を感じていた節があったのですが、実際見てきたプレゼンやアイデア、実際触れた研究者達の熱意に刺激を受けて、やってみたい事がまた一層増えたと感じています。やっぱりどっかでPhDやるのもアリか・・・?と考えてみたり。

来年のISMIRはパリで開催されるそうです。来年卒業しちゃうのでまた行く機会はあるのかは不明ですが、またこういう場に参加する機会があれば、もっと人の話を聞きにいけるように成長したいです。

最後に気になった発表リスト。

Structured Training for Large-Vocabulary Chord Recognition

B.McFee氏のコード認識論文。Qiita記事でもちょっと紹介しましたが、ニューラルネットワークのRepresentationを変えて複雑なコードの学習をしやすくする試みです。

具体的には、深層CNNの出口にて、170次元(14種のコードx12半音+2つの特殊ラベル)のsoftmax出力”Chords”、12次元の”bass”、”root”、”pitch class”を出力して、それぞれ正解のコードに合わせて最適化してゆきます。

コード認識時のは、ニューラルネットの出口でbass,pitches,rootを出力した後、その出力をもとにラベルを決めるのかと思いきや、最後は結局全部無視して、普通にChords出力の最大値でラベルを決めるそう。bass,pitches,root部分はは、学習時のlossの計算を合理化するためだけの存在なんですね。

結局複雑コードの問題は未だに未解決なんですよね、と言って講演を締めました。

前記事で紹介したEven Chance Trainingと合わせればもっと精度が良くなりそうな気がします。

Singing Voice Separation with Deep U-Net Convolutional Networks

ポスター発表。この三日でSpotifyの論文はかなり見かけた気がします。

この論文はDeep CNNで歌声分離を行う話。スペクトログラムをConvolutionして、Deconvolutionで戻す対称的なニューラルネットワークでmaskを出力して、元のスペクトログラムに掛けることで分離を行います。Convolution層からDeconvolution層へskip connectionで繋げることで、maskがいっそうクリアになる魔法がかかるそうな。

つまりCNNスゲーという事ですねわかります。Spotifyは音楽データ貯めてあるから良いよね。

NN自体はわりと書きやすそうなので、データセットを揃えることができるなら今年のQiita Advent Calendarのネタにしても良いかも。あとはGPUメモリの容量が許してくれるかどうか。

この論文は今年のBest Poster Presentation Awardに選ばれました。歌声分離の音声デモは確かに素晴らしかった・・・。