コード認識に関する論文が発表されました

音声処理技術等を扱うジャーナルのIEEE/ACM Transactions on Audio, Speech, and Language Processingで、しゃをみんが執筆したコード認識研究の論文が発表されました。

Y. Wu and W. Li, “Automatic Audio Chord Recognition with MIDI-Trained Deep Feature and BLSTM-CRF Sequence Decoding Model,” in IEEE/ACM Transactions on Audio, Speech, and Language Processing.

論文リンク

復旦大学の修士コースでの研究成果をまとめた論文で、一足先にICASSP2018で発表した会議論文の進化版になります。より精度の高いコード認識モデルの提案・検証ということで提案モデルを端から端まで説明してゆく内容なのですが、その中でも一番伝えたいアイデアは:

大量のMIDIデータ(音符情報と合成音声の対)のみで学習した特徴抽出機(音響モデル)は、実音源に使っても有用と思われる

というところです。これまでの研究では、実世界のレコーディング音源と手動アノテーションの対を機械学習に用いるアプローチが多いのですが、アノテーションを大量に作成するのは(特に時間を揃える必要がある場合に)とてもつらいので、表現学習の部分だけでもMIDIデータに肩代わりしてもらえないか(流石に分類の部分はアノテーションに頼らざるを得ないけど)?という考えがモチベーションです。

すごく単純で(マシンパワーがあれば)すぐに試せる脳筋アイデアなのですが、査読の人にもそこ結構面白いんじゃないの?と評価していただけました。

実験では、Lakh MIDI datasetから6000曲ほどのGeneral MIDI楽曲データを使って、合成音声(のスペクトログラム)から各フレームにおけるChroma情報を推定するよう、DeepなCNN(畳み込みニューラルネットワーク)音響モデルを学習させた所、実音源でもかなり綺麗な特徴量が得られたし、実音源データセット(RWCなど)を用いたコード認識のタスクでもより高い精度を達成できました。

RWC-POPデータセットの1曲の冒頭部分を、異なるクロマ特徴計算手法で特徴抽出した結果の比較図。上から順に:(a)CQTスペクトログラムから単純計算で得られた特徴量;(b)DeepChromaという実音源とコードラベルの対で学習したモデルの特徴量;(c)提案したMIDIデータから学習したモデルの特徴量。一番下は楽曲と同期されたMIDIデータ(AISTが公開しているもの)による正解ラベル。(c)は正解をかなりよく再現できていることがわかります。

コード認識においては良い精度を残すことができましたが、個人的にはこの音響モデルがカバー曲認識やセクション分割(サビ検出)などほかのタスクに応用してもイケるかどうかも気になるところです。誰かやってみてくれないかなー。

実験に使ったソースコード(Chainerで書きました)をGithubに置きましたので、ご参考に。

色々とやり残しを抱えながら復旦大学から卒業したしゃをみんですが、無事論文を成仏させやっと完全卒業です。なーむー。しかし論文の後半で論じたように、コード認識の研究だけでも色んな課題が残っており、まだまだ色んな面白い研究ができると感じています。これからも京大で引き続き、コンピューター耳コピの研究に取り組んでまいります。

ぐーぐるに負けない!