MIREX 2016 Audio Chord Estimation 手法と結果まとめ

自分のコード推定研究があまりに詰んでて論文も書けてないしブログも更新できないまま今年のMIREXの結果が出てきました。とりあえずAudio Chord Estimationの項目に目を通して心を落ち着かせたいと思います。

コード推定の問題形式は音声認識とかなり似ていると思われていたのですが未だに音声認識のような性能の突破は見られず論文を出す人も少ないです。

まさに自分が突破口を見出してやりたいところなのですが、一筋縄ではいかないなぁ・・とか思ってたら、なんとMIREXでディープラーニングの成果が出てしまってるようです。

http://www.music-ir.org/mirex/wiki/2016:Audio_Chord_Estimation_Results

ちなみにこのMIREXタスクを簡単に説明すると、与えられたデータセットの音源をアルゴリズムで耳コピさせて正答率を競う競技です。評価基準はルート、メジャー・マイナーコードのみ(MajMin)とセブンスコードも含む(Seventh)という二つの基準での正答率(耳コピと正解の重合時間の割合)で評価されます。

ACEタスクのデータセットは近年結構提供されてて、今年はRobbieWilliamsというデータセットが増えたようです。スコアを見る限り、Isophonics(ビートルズ)よりも難易度が低いデータセットっぽいですね。

4つのチームから計8個のアルゴリズムが提出されました。見てみましょう。

CM1

おなじみ常連さんのChordino。Queen Mary UniversityのVAMPプラグイン群は毎年主要なMIREXタスクに参加してて、伝統手法のベースラインと言えます。論文はこちらで検索↓

Approximate Note Transcription for the Improved Identification of Difficult Chords

特徴量はNNLS Chromaという、疑似的なNote transcriptionから得たChromaベクトル。スペクトルをTrebleとBassに分けてChromaを計算し、HMMを訓練してViterbiで推定するとのこと。

去年はなぜか信じられない低スコアを出してしまったんですが今年は持ち直しました。対策をしたんでしょうか。

DK1-DK4

香港大学チームのディープラーニング系手法。HMMの手法を基礎に、一部をディープネットに置き換えるというアプローチです。

仕組みは二種類。一つ目は、まずChordino手法でいっぺん識別して、それから得た分割の中でそれぞれディープネットを使ってもう一度識別するというやりかた。ディープネットはDeep Belief NetworkとRecurrent Neural Networkの二パターン。RNNの場合は僕の没案に似てますね。僕の場合、ビートで分割しているのですが。こちらで3パターン提出しましたが結果はそこそこ、セブンスコードの識別でChordinoを上回ってます。RNNよりDBNがマシという結果になってます。

二つ目は、Chordino手法でChromaを計算した後、直接双方向RNNに押し込んで識別するend-to-endな手法。こちらはChordinoに比べても成績はあまりよくなかったです。

FK2,FK4

FK4が優秀!キタコレという感じ。どのデータセットもMajMinタスクでは頭一つ抜けてます。Seventhもそこそこで、少なくともChordinoを上回ってます。

RobbieWilliamsデータセットだけSeventhもぶっちぎりだったんですが、たぶんRobbieWilliams氏はあんまりセブンスを使わないせいかもしれません。

出所はMIRライブラリmadmomを出しているJohannes Kepler University。公開したてほやほやの成果で挑んできました。

ぐぬぬ!

提出されたのはDeep Chroma Chord RecognitionとCNN Chord Recognitionの二つ。AbstractではそれぞれFK1,FK2となってますが…論文によるとCNNの方が性能良かったんで多分CNNがFK2でDeep ChromaがFK4かな?

CNNはディープラーニング系で一番初めに提案されながらそれ以降ずっと干されていたのですが、今ここで脚光を浴びた形になります。やはりCNN強し。

Githubでソースコードが公開されてて、論文のリンクも貼られてます↓

https://github.com/fdlm/chordrec

と思ったらmadmomにも実装されてたようです。いつの間に!!衝撃過ぎです。

詳しくは論文をじっくり読んでから別記事で。

KO1

こちらも常連のShineChordさん。改良Chroma+普通HMMのパターンで、非ディープラーニングながら優秀です。Chromaベクトルに畳む前にスペクトルのピークを強調する処理を行ってるようですが。それでこんなに伸びるのか・・・。MajMinでは及びませんでしたが(それでもかなり近い)、セブンスの方はFK4よりもいいです。

というわけで今回は近年madmomで存在感を高めてるJKUがACEタスクで結果を出してしまいました。これから耳コピ関連の研究がどんどん進むかもしれません。落ち着くどころか危機感が増しました。

まずは論文を読みましょう。