初ISMIRに行ってきた(2)

昨日のディナーの席ではHuman Bingoなるものが配られていました。ルールはマスの条件に符合する人間を一人ずつ見つけてマスを全て埋めること。一人につき一マスしか埋めていけないので、どんどん周りに話しかけてね、っていう催しです。

ポスターやディナーの場では、色んな貴重な出会いがありました。カンファレンスは知識の交流の場だけでなく、人間の交流の場でもあることを実感。

緊張してうまく話せなかった事も結構ありました。未だに人見知りが発症してる自分はほんまガキだなと痛感。ポスター発表大丈夫かな・・・

さて、三日目の気になる発表。

Local Interpretable Model-Agnostic Explanations for Music Content Analysis

ポスター発表。画像認識モデルを理解するためのアルゴリズムLocal Interpretable Model-Agnostic Explanation(LIME)を音楽解析に応用したもの。入力スペクトログラムのどの部分が認識結果に正の影響を与えているのか、あるいは負の影響を与えているのかを調べることが出来ます。深層学習を多用する研究には有用かもです!

Learning Audio-Sheet Music Correspondences for Score Identification and Offline Alignment

Oral session #4の発表。深層学習を使い、音楽音声やスコア画像などの異なる形式のデータから共通のRepresentationを抽出できるモデルを作り、Score IdentificationやAlignmentに応用できたという研究。深層学習スゲー。

MIRといえど音声やスコアデータのみを扱うにとどまらず、様々なデータ形式を統合させる研究もこれから活発になりそうです。

Lyric Jumper: A Lyrics-Based Music Exploratory Web Service by Modeling Lyrics Generative Process

ポスター発表。産総研が新たにリリースしたサービスですね。楽曲の歌詞を自然言語処理で使うトピックモデルでモデル化し、楽曲を愛や友情といった様々なテーマと紐付けます。さらにアーティスト別にトピックの分布をモデル化して、Recommendationを行うシステムです。

個人的にSongle.jpの印象が強かったんですが最近の後藤先生らのプロジェクトはレコメンデーション(音楽発見?)の方に力が入ってる気がしますね。それが後藤先生が熱く語られていた「能動的な音楽鑑賞」の具体像なのでしょう。

Large Vocabulary Automatic Chord Estimation with an Even Chance Training Scheme

ポスター発表。訓練データの偏りゆえに学習が困難な複雑コードタイプの認識に関する研究です。

Even Chance Trainingってなんぞやって思ってたんですが、分類器訓練に使う入力データを選ぶ際に、全てのコードタイプが「先頭に出現する確率を等しくする」という事なんですね。これにより訓練データの不均等問題を解消できるとのこと。実際完全ランダムな選択と比べて、複雑なコードの認識精度はかなり上がったようです。

Function- and Rhythm-Aware Melody Harmonization Based on Tree-Structured Parsing and Split-Merge Sampling of Chord Sequences

ポスター発表。気になっていたメロディーのコード付け論文。従来的なマルコフモデルではなく、木構造でコード進行をモデル化しようという考え方が面白かったです。マルコフ過程は一つのコードから次のコードを推定し、そこからまた次・・・という考え方なのに対して、木構造は隣接するコード(正確にはT,S,Dのアレ)同士を1グループ、そして隣接するグループ同士をさらに1グループ、さらに・・・という風に見ています。

コード付けの際は、「最尤コードの推定」「分割位置の調整」「隣接コード(木構造の葉)の分割/合併」のいずれかをランダムに行い、それを繰り返すことで最適なコード進行を求めていくそう。このようなイテレーティブなアプローチは、自分が当たっているコード認識でも、post-processingの段階とかで応用できないか、考えてみてもいいかも。