シーン認識データセット

今日は、画像のシーン認識の歴史について、データセットを中心にまとめてみたいと思います。
シーン認識というと人によっていろいろ違うものを想像する気がしますが、ここで扱うのは単純な画像全体のカテゴライゼーションの問題です。
Caltech101みたいな物体認識とは何がちがうんだ?と思われるかもしれませんが、実際のところ明確な区別はありません。少なくとも現在では、技術的にもほぼ同じ枠組みで扱われることがほとんどです。私が思う違いを強いて挙げるなら、物体認識は画像中の特定領域に対象を関連付けることができる(すなわち、検出ができる)のに対し、シーン認識はあくまで画像全体との対応である場合が多いことでしょうか。

以下、代表的なデータセットを古い順にいくつか紹介します。
データセットの名前は、開発者の頭文字+クラス数で呼称されているものが多いので、ここでもそれにならいます。(最近はそうでもないですが)

OT8

Modeling the shape of the scene: a holistic representation of the spatial envelope
A. Oliva, A. Torralba
International Journal of Computer Vision, Vol. 42(3): 145-175, 2001.
http://people.csail.mit.edu/torralba/code/spatialenvelope/

MITのTorralbaさんは古くからシーン認識の問題に取り組んでおり、さまざまなアプローチで現在に至るまで最先端の成果を出し続けています。この論文は、大域的特徴量として現在でも広く用いられているGIST特徴を発表したもので、シーン認識の論文としては最も有名なものの一つです。データセットは8クラスで、うち4クラスが自然風景(coast, forest, mountain, open country)、4クラスが人工物の風景(street, inside city, highway, tall building)からなります。
(LabelMeデータの一部なので、画像領域のアノテーションデータもありますが、カテゴライゼーションタスクではこれは用いません。)

最近はあまり使われなくなってきたように思います。ただ、画像のアノテーションとカテゴライゼーションの同時最適化のようなタスクではたまに見かけます。

VS6

Semantic Scene Modeling and Retrieval for Content-Based Image Retrieval. Julia Vogel and Bernt Schiele.
International Journal of Computer Vision. Vol. 72, No. 2, pp. 133-157, April 2007.

この方も、コンピュータビジョンの立場からシーン認識に取り組んだパイオニアの一人です。
データセットCorel画像を用いたもので、6クラス700枚とやや小ぶりであるものの、全ての画像の10x10のパッチにattributeがラベル付けされています。この研究では、このような中間表現を経由した識別を行っています。ただ、その後の研究では単純にカテゴリラベルだけ用いた識別モデルの方が優勢になっています。(最終的な評価が識別性能で行われる以上、仕方ないことかもしれませんが)「Vogelらの手法では各訓練画像にパッチレベルで大量のラベル付けを行う必要があったが、提案手法ではカテゴリラベル一つでよく、性能も勝る」みたいなことを毎回書かれることになり、ちょっとかわいそうな感じです。

このデータセットは、最近では全く見かけることはなくなりました。というか手に入るのかも分かりません。。

FP13

L. Fei-Fei and P. Perona. A Bayesian Hierarchical Model for Learning Natural Scene Categories. IEEE CVPR. 2005.
http://vision.stanford.edu/resources_links.html

この論文では、OT8に新たに5クラス追加し、13クラスにしたデータセットで実験を行っています(画像はグレースケール)。LDAを画像認識に応用した研究例としても有名です。
現在では、後述するLSP15が主流になっているため、ほとんど見ることはなくなりました。

LSP15

Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories
S. Lazebnik, C. Schmid, and J. Ponce, CVPR 2006
http://www.cs.unc.edu/~lazebnik/

現在、一般物体認識にはなくてはならないツールの一つである、spatial pyramid matchingが提案された論文です。GISTもそうですが、シーン認識の文脈から意外と重要な技術が生まれていることが分かります。
ここでは、FP13にさらに2クラス追加したデータセットを用いています。

FP13にしてもそうですが、なぜわざわざデータセットを先行研究と比較不可能な形にするのか謎ですね。
ともあれ、この後LSP15はシーン認識におけるデファクトスタンダードベンチマークとして長く用いられることになります。現在でも現役ですが、最近は認識率のスコアが上がりすぎて苦しくなってきた感があります。

MIT Indoor 67

Recognizing Indoor Scenes. A. Quattoni, and A.Torralba.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2009.
http://web.mit.edu/torralba/www/indoor.html

OT8を出したTorralbaさんのところが新しく作ったデータセットで、室内シーン限定の67クラス15620画像からなるデータセットです。ちょうどこの頃からAmazon Mechanical Turkが盛んに利用されるようになり、このような大きなデータセットが作れるようになってきました。
論文では、室内シーンの識別は屋外シーンの識別より難しいという主張がされています。確かに、これくらいクラス数が増えるとかなり曖昧になってくる気はします。

このデータセットも少し使われ始めていますが、後続のSUN397に注目を奪われてしまい、あまり日の目をみないで終わってしまうかもしれません。

SUN 397

SUN Database: Large Scale Scene Recognition from Abbey to Zoo
Jianxiong Xiao, James Hays, Krista Ehinger, Aude Oliva, and Antonio Torralba
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), San Francisco, CA, June 2010.
http://people.csail.mit.edu/jxiao/SUN/

またTorralbaさんのところが発表したもので、397クラスからなる現在最大のシーン認識データセットです。
現在、SUNデータセット全体は900クラス以上画像があり、セグメンテーションマスクなども提供されているようですが、これはその中からある程度画像数のあるクラスに絞ったものです。

かなり大規模であるため、今のところあまり使っている例を見ませんが、今後はこれがデファクトスタンダードになっていくものと思います。

State-of-the-arts

ついでなので、知っている範囲で現在の最高スコアをまとめてみました*1
(あくまで私の見たものだけです。もし他にあれば教えていただけるとありがたいです。)

データセット 認識率(%)
LSP15 88.1 [Xiao et al. CVPR'10], 88.2 [Krapac et al. ICCV'11], 89.8 [Gao et al. CVPR'10]
Indoor 67 37.6 [Li et al. NIPS'10], 41.8 [Bo et al. NIPS'11], 43.1 [Pandey et al. ICCV'11]
SUN 397 38.0 [Xiao et al. CVPR'10]

*1:VS6, OT8, FP13についてはここでは割愛しますが、Cristani et al. ICCV'09とかよさげです。