初ISMIRに行ってきた(1)

お久しぶりのブログです。

ISMIRに論文が採択されたわけではないので、研究室に参加費を出して貰えないことになっていたのですが、MIREX Chord Estimationに参加して結果が割と良かったので教授が参加費を承諾。蘇州ISMIR2017に急きょ参戦しました。MIREXポスター発表がある最終日までどっぷり見て回る予定であります。

現在はISMIR二日目。初日のTutorial Sessionでは、午前にMIRで確率論を扱う話、午後は音楽生成(いわゆる自動作曲)の話を聞いてきました。最近は論文の確率に関する数式を読むのが辛くなっているのでおさらいにと思い聞きに行ったのですが、確率の基礎を話しているうちに大幅な時間オーバー、肝心のMIR用確率モデルを詳しく扱えないまま終了してしまい、ちょっと残念。外国の偉い先生でもこんな事になっちゃうんですねぇ・・・

午後の音楽生成は、深層学習やマルコフな手法が紹介されていて面白かったです。試してみたい。

二日目はOral sessionとポスター発表。気になったものをメモしていきます。論文はここから探してね。

Deep Salience Representations for F0 Tracking in Polyphonic Music

Oral session #2の発表。深層学習でPolyphonic F0 Trackingする論文です。従来UPFの人たちが提唱したMelody tracking用のSalience functionは、スペクトログラムの倍音を足し合わせるなり、Peak filteringするなり、F0を強調させる方法を色々考えて計算されていましたが、もう訓練データセットがあるから深いCNNで直接F0行列に変換してもらいました、という話。そして実際に手持ちのデータセットでわりとうまくいったようです。

興味深かったのはCNNの入力に使ったHarmonic CQTというもの。CQTスペクトログラムとその各binを2倍周波数、3倍周波数、4倍周波数・・・ぶん下にシフトしたものを、Z軸方向に重ねたものだそうです。こうすることでできた3次元行列は、各周波数のすべての倍音がZ軸方向に重なるようになるので、Salienceの計算にとっては理にかなったものになります。ただCNNのフィルターは時間周波数域の2次元のままなので、Z軸にもフィルターを広げることはやってみないのかな・・・と後で思ったり。

An Analysis/Synthesis Framework for Automatic F0 Annotation of Multitrack Datasets

第一作者のSalamon氏が不在な為さっきの論文の講演者(この論文の第二作者)がそのまま続けて紹介した論文。

さっきの論文では、CNNの学習の為に、音楽音声とそのF0の系列のアノテーションでできた学習データが大量に必要なのですが、そのアノテーションは、

  1. 音楽のステム(ボーカルや笛など単音楽器に限る)をpYINとかでPitch Trackingする
  2. 生じた誤りを人手で修正する

という手順で行われていました(ステムをミックスすればPolyphonic music audioになる)。これは結構労力を要し大量のデータはとても作れません。

そこでこの論文が提案した全自動アノテーション手法の手順は、

  1. 音楽のステム(単音楽器に限る)をPitch Trackingする
  2. Pitch Trackingで得たF0系列を基にステム音声をモデル化し(Sinosoid modelling等)、そのモデルで新しい音声を合成する
  3. 合成した音声を新しいステムとしてミックスする

F0を基に合成された音声なので、F0系列とは厳格に符合します。要するに、「F0が音声に合わないかもしれないなら、音声をF0に合わせればいいんじゃなーい?」という逆転の発想。頭良い!実際合成された音は、元の音声とほぼ区別がつかないので、全然普通のデータセットと変わりなく利用できるとのこと。

音源が単音楽器に限定されるなどの制約がありますが、これなら大量のステムを集めるだけで大きなデータセットを自動で作れます。

Chord Recognition in Symbolic Music Using Semi-Markov Conditional Random Fields

楽譜データのChord Recognition問題。機械学習を使わず、CRFを使ってコードの認識と分割を細かくモデル化して、従来のHMMを大きく超える精度を実現しています。

自分が扱う音声形式の音楽のコード認識では、フレーム単位の分類が限界にぶち当たっており、CRFでコード認識と分割を同時にモデル化するという手法は有望な道だと感じているので、これは重要な論文になるかもしれません。たぶんノートレベルの認識精度がもう少し上がれば、ここにもそのまま応用できるかもしれません。

今回扱ったのは古典音楽で、ポピュラー音楽等のでの効果は未確認とのこと。