Does Content Matter? - n_hidekeyの日記

今日は、最近読んでいろいろ考えさせられた論文について紹介したいと思います。

Web-Scale Multimedia Analysis: Does Content Matter?
IEEE MultiMedia. 18(2): 12–15 (2011)
(pdf) http://www.slaney.org/malcolm/yahoo/VisionAndViews/Spring2011-DoesContentMatter.pdf
(HP) http://labs.yahoo.com/node/650

内容としては、マルチメディアのコンテンツ解析分野において、これまでの考え方に疑問を投げかけるものです。
この分野では、画像・動画像・音楽などの検索や推薦をコンテンツドリブンに行いたがる人が多く、定型的に用いられるロジックとしては、

現在実用化されているシステムは、周囲のテキストなどなんらかのメタ情報を利用するものが大半である。
しかし、これらのメタ情報はコンテンツの中身そのものと直接関連しているわけではないので、必ずしも望ましい結果が得られない。
従って、コンテンツの信号そのものから特徴抽出(FFTなど)を行い、これを利用することが必要である。

というところだと思います。しかしこの論文では、多くのタスクでコンテンツ自体の特徴よりもメタ情報の方がはるかに有効であったという結果を示しており、安易に上記の考え方をとり続けることに警鐘を鳴らしています。

内容紹介

この論文の著者であるMalcolm SlaneyさんはYahoo! Researchの研究者で、マルチメディア分野では大御所の一人です。
音楽や画像を中心に、長い間前述のようなコンテンツ解析とその応用へ取り組んできた方だけに、非常に重みを感じます。
以下に極簡単に内容をまとめますが、是非とも原文を読むことをお勧めします。とても歯切れのよい文章で、示唆に富んでいます。

< 音楽検索 >

著者が過去に行った実験で、音楽の類似度を測定する二つのアプローチについて比較を行っています*1。

各曲の音声波形から得られる特徴量を利用する。（ジャンル識別などでよく用いられるものだそうです。）
各曲について5段階でユーザが評価したスコアを、ユーザ数分並べて素性ベクトルとする。

あるデータセットを用いたブラインドテストの結果、後者が圧倒的によい結果となりました。

< 動画像推薦 >

Netflixは2009年に、映画推薦のコンペティションを開催しました。賞金総額100万ドルの大規模なもので、多くの研究者の関心を集めました。
動画像特徴量を用いる試みも多く行われましたが、優勝したシステムでは結局そのようなコンテンツ自体の特徴は一切用いられませんでした。ユーザの評価スコア、映画の公開時期など多数のメタ情報をブースティングで組みあわせています。

このコンペティションの参加者の多くはコンテンツ解析にも精通した研究者であったにも関わらず、このような結果になったことの意義が強調されています。プロジェクトのページでは以下のようにコメントされています。
「アカデミアの世界で行われるベンチマーキングの多くは、単一の情報源（例えば画像のみ）に基づき、単純な指標で評価するものになっています。これはこれで、問題に対する一つの解へ集中するためにはよい枠組みであるといえます。しかしながら、現実の世界ではより優れた方法が求められています。最も優れた方法が、我々が期待するものとは限らないのです。」

< 画像アノテーション >

画像アノテーションとは画像へいくつかのキーワードを付与するタスクであり、比較的単純なパターン認識の問題です。多くの人が、画像自体の信号（ピクセル）が一番重要な情報を持つと考えてきましたが、果たしてどうでしょうか。
Yahoo! Researchの研究者がFlickrの関係者に、アダルト写真のフィルタリングのために最新のコンピュータビジョン技術が必要か聞いてみたことがあるそうです。しかし彼らは即座にこれを否定し、ネットワークグラフを利用する方が有効だろうと答えました。Flickrの場合、どの写真も誰によって撮影されアップロードされたかが分かり、その撮影者の友人の写真にはどのようなラベルがついているか、などの周辺のコンテキストを得ることができます。これらの情報の方が画像そのものよりも強力であろうということです。

この考え方を一般化し、調査した結果が発表されています*2。この実験では、ウェブから画像を収集し、ハイパーリンクからグラフを作っています。その結果、最も有効であったのは、画像自体の特徴量でも画像周辺のテキストでもなく、グラフ上の近傍画像の持つラベルでした。要するに、同じサイトや似たようなサイトにある画像は似たようなものが多いという、ある意味当たり前の結果なのかも知れません*3。

< 結論 >（訳、一部のみ）

「コンテンツ解析分野の研究者として、私はコンテンツ自体を無視すべきなどというつもりはありません。しかしながら、問題を解くにはさまざまな方法があります。マルチメディアコンテンツを取り巻く豊富なメタ情報を見過ごすべきではないでしょう。
我々への"宿題"になっている課題では、画像のピクセルしか考慮しないかも知れません。しかし現実の世界はそれほど単純ではありません。全てのコンテンツはなんらかの文脈を持っており、その情報を無視することは科学的ではないし、成功へのチャンスを遠のかせるでしょう。」

感想

まず率直な感想としては、よくこんな論文書いたなあと（笑）。コンテンツ解析が大好きな人にとっては苦々しい論文かもしれません。ただ、このような事実は事実として受け入れなければなりません。著者自身もコンテンツ解析の専門家であるだけに、かなり苦悩されたのだろうと思います。分野のリーダーとして正しい方向へ議論を導こうとする強い意志を感じました。

冒頭で述べたようなコンテンツ解析の論法は、おそらく15年前にはある程度説得力があったのでしょう。ただ、現在ではSNSなどの急激な進歩により、コンテンツに対して人間が直接的に与えたメタ情報がいくらでもとれるようになって来ています。最終的に評価するのが人間である以上、こうした情報を用いる方がよい結果になるのは当然といえば当然なのかもしれません。

今までは、画像・動画像などを中心としたコンテンツ解析は見た目が分かりやすく、何となくすごいものが出来そうな印象を与えるものであったため研究対象にしやすかった面がありますが、これからはその最終的な目的がシビアに問われるようになりそうです。

*1:M. Slaney and W. White, Similarity Based on Rating Data, Proc. Int'l Soc. Music-Information Retrieval, 2007.

*2:D.K. Mahajan and M. Slaney, Image Classification Using the Web Graph, Proc. Int'l Conf. Multimedia, ACM Press, 2010, pp. 991-994.

*3:ただし、この実験ではアダルトコンテンツの識別という最もwebグラフの効果が出そうなタスクを扱っているので、一般的な画像認識でも同じ結果になるかは議論が必要であると思います。