音楽類似度計算の「ガラスの天井」

「ガラスの天井(glass ceiling)」というのは本来ある社会問題をさす言葉らしく、女性やいわゆるマイノリティの人たちが目には見えない(明言されない)障害にぶつかって、しかるべき昇進を妨げられている状況をさすみたいです。

MIR関連の論文を読んでると、音楽内容の抽出や類似度計算などで、性能にどうしても限界があるという意味で「glass ceiling」という言葉をよく見かけます。音楽のオーディオ信号は聴覚的にいろいろと分かりやすいルールがありそうですが、やはりどうしても気まぐれなもので、単純に低レベルな特徴量を求めても、なかなかうまい具合に機能しない場合が出てくるものです。

「ガラスの天井」を論じた代表的な論文を読んでみました。

Improving Timbre Similarity : How high’s the sky ?

この論文では、著者が提案したMFCC+GMMモデリングを使った音楽類似度(厳格的には音色の類似度)計算メソッドを、色々なパラメーターを変えたり、(音声認識でよく使う)前処理を加えたり、比較方法を変えたり、モデルを変えたり(GMMの代わりにHMMを使う)などして正解率を測った結果が示されています。その結果をみると、一部のパラメーターの調整により正解率(R-precision)の結構な向上がみられたんですが、どの方法を使ってどうあがいても、どれもだいたい65%あたりで頭打ちにされているのがわかります。

この結果をもとに、これに似たような手法を使ったままでは、65%の天井を破ることはできないのではないか、と著者は論じました。

正解率に限界があるだけでなく、不正解においても「惜しい」というものではなく、全然違う印象の曲が似てると判断されるケースが多いらしいです。一例として、ジミヘンの強烈なロック曲と「似てる」と判断された曲の中には、アコギ一本のフォークソングや、ビッグバンドジャズが混ざっていたりしました。

さらに不正解のケースを見ると、どうやら不正解はごく一部の曲に集中しているらしいといいます。つまり、10%くらいの曲は「似てる」とみなされた曲が多すぎて、結果35%の不正解を生んだということです。

このようにどんな曲とも「似てる」と判断されがちな曲を、著者は”hubs”と名付けました。”hubs”の存在は今でも結構重要な課題だそうです。

もう一つの論文

Looking Through the “Glass Ceiling”: A Conceptual Framework for the Problems of Spectral Similarity

では、「天井」の原因として上のhubsのほかに二つの原因に言及しました。

  • “orphan”。これは”hubs”とは逆で、ほかのどんな曲とも「似てる」と判断されないぼっちさんのこと。
  • 特徴量自身の問題。MFCCなどの特徴量系列は、次元数が増加するにつれ互いの距離が均一化する傾向があるらしく、クラスタリングしにくい。

この論文ではこの三つの原因の関係性、および発生のメカニズムを釈明しようとしました。それによると、orphanもhubsの出現は決して偶然ではなく、特徴量の増加に伴って「必然的に」発生するものらしいです(原文ではexpected to appearと書いてるのでちょっと意味が違うかもしれませんが)。

次元数が低いと特徴量自体の精度が足りなくなってしまう、そして次元数が高いとorphanとhubs現象、そして距離の均一化が起きてしまいやはりマイナス。悩ましいジレンマです。

近年はスペクトラムのピークだけを強調したHPCPなど、新たな特徴量が提案されているのですが、MIREXの近年の結果などを見る限り「天井を破った」と言えるような進展は見られない感じです。

やはり人間の気まぐれの産物をコンピューターに扱わせるのは、なかなか難しいですね。