ディープラーニングがアツいと聞いて

最近になってディープラーニングの概念についてようやくちょっとわかった感じになったので、MIR分野ではどんな感じで使われてるのかなーと思いながらググってみたら意外なところの論文を見つけてビビりました。

A Deep Neural Network for Modeling Music

School of Computer Science, Fudan University (復旦大学コンピューター科学部)とはまさに僕が所属してる学部で、しかも一応僕は音楽情報処理の研究室(正式名称じゃないけど)でやっていて、なのにずらっと並ぶ著者の名前は全部知らなくて「復旦??復旦ナンデ??」って感じでした。

研究室の知り合いに聞いてみたら、責任著者のZheng氏はお隣さんのソフトウェア工学部(なんか形式上うちの学部と併合されてるらしい)の教授で、AIの研究をされてる方らしい。あと上の知り合いの同級生が二人いるとのこと。

んで、その隣人さんがうちらに黙ってMIRテーマに手を出していてそれなりに成果を挙げているというのはちょっと気になりますがまあ大した事でもない、かな?

この論文は、「音楽のモデリング」と称して、音楽の比較や分類、自動タグ付けとかに役立つモデルを設計しようというのが目標。MFCCだのChromaだの従来の特徴エンジニアリングから脱却し、ディープ・ニューラルネットワークの力を借り、学習によって最適な抽象モデルを作り上げようという試みはもういくつかあるんですが(ディープラーニングのそもそもの存在意義だし)、ここでは従来(だと思う)のconvolutional neural networkに「k-max pooling layer」なる独自設計したレイヤーを加えたもところが新しいといいます。詳細は原文に書いてありますが、要するにconvolutionレイヤーからのアウトプットからk個のアクティブな特徴だけを選んでラベルの予測に使う、ということらしいです。これがどういいのかはちょっと不明。

ここでは音楽ジャンル分類の能力で評価してましたが、GTZAN(10このジャンル各100曲入ってる公開データセット)での正解率は最高83.9%。なかなかいいです。ニューラルネットワークではsoftmaxでクラスを予測するのが一般的らしいですが、意外にここではSVMを使った方が結果がよかったとのこと。

何かとアツいディープラーニングですが、ここ最近論文をちょっと読んでみたところでは、MIRでも色々と通用してるように見えます。正直人工知能って僕はそんなに興味がないんですが、やはり世間も周りも乗り遅れてはいけないという空気が漂ってるので少なくとも使い方だけは押さえておきたいですね。

というわけで実装しやすそうな論文を選んで挑戦してみる予定です。