Fine-grained visual categorization

一般物体認識は技術的興味の対象としては魅力的ですが、結局のところ何の役に立つのでしょうか?一般物体認識は、人間にとっていわば「常識」にあたるような基本概念の獲得を目指すものですが、常識であるがゆえに意外と使いどころがないのが実情かもしれません。例えば、街でふとみかけたかっこいいバイクについて知りたくなり、google gogglesのようなアプリで認識・検索したとします。この時、単に「バイク」と言われてもそんなの分かっとるわという話で何の意味もありません。この場合、そのバイクのメーカーや型などが知りたいはずです。
このように実用上価値を見出しやすいのは、物体の基本概念よりはもっとspecificな情報の認識であると思われますが、一般物体認識の研究分野においては主に前者のみが扱われてきました。後者はFine-grained visual categorization (FGVC) と呼ばれ、近年注目される分野になってきています。

FGVCについて、まだあまり明確な定義はないような気がしますが、CVPR'11で開催された初のワークショップのHPには以下のように説明されています。

The First Workshop on Fine-Grained Visual Categorization
http://www.fgvc.org/

"Fine categorization lies in the continuum between basic level categorization (frog vs piano) and identification of individuals (face recognition, biometrics). The visual distinctions between similar categories are often quite subtle and therefore difficult to address with today’s general-purpose object recognition machinery. It is likely that radical re-thinking of some of the matching and learning algorithms and models that are currently used for visual recognition will be needed to approach fine categorization."

要するに、従来の一般物体認識と特定物体認識の中間的なものということのようです。自分の持ってるイメージだと、一般物体認識は幅優先、FGVCは深さ優先でカテゴリを押さえていく感じでしょうか。今のところ、技術的には従来の一般物体認識の手法がほぼそのまま試されている感じですが、今後この領域ならではの面白さが出てくるか注目です。


以下の論文では、ImageNetの大規模なデータを用い、さまざまなポリシーでカテゴリを設定して識別実験を行っています。同じカテゴリ数であっても、概念的に近いクラスを集めた場合は識別精度がかなり落ちることが示されており、FGVCの難しさが伺えます。

Jia Deng, Alexander C. Berg, Kai Li, and Li Fei-Fei, "What Does Classifying More Than 10,000 Image Categories Tell Us?", ECCV 2010.

なお、この論文で使われたFungus134(キノコ*1)、 Vehicle262(車)などのデータセットは、その後のFGVCの研究でもよく用いられています。

他にも、いくつかデータセットが出ています。
一番有名なのは、Caltech-Birdデータセットでしょうか。200種類の鳥の識別をします。バードウォッチングで使えると楽しそうですね。

Welinder P., Branson S., Mita T., Wah C., Schroff F., Belongie S., Perona, P. “Caltech-UCSD Birds 200”. California Institute of Technology. CNS-TR-2010-001. 2010.
http://www.vision.caltech.edu/visipedia/CUB-200.html

Stanford dogデータセットでは、120種類の犬種の識別をします*2

Aditya Khosla, Nityananda Jayadevaprakash, Bangpeng Yao and Li Fei-Fei. "Novel dataset for Fine-Grained Image Categorization", First Workshop on Fine-Grained Visual Categorization (FGVC), IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2011.
http://vision.stanford.edu/aditya86/ImageNetDogs/

少し古いですが、Oxford Flowerデータセットも有名です。102種類の花の識別をします。このデータセットがでた時点では、あまりFGVCの概念が殊更強調されることはなかったような気がします。

Nilsback, M-E. and Zisserman, A. "Automated flower classification over a large number of classes",
Proceedings of the Indian Conference on Computer Vision, Graphics and Image Processing (2008)
http://www.robots.ox.ac.uk/~vgg/data/flowers/

なお、写真でとった植物を識別したい、というモチベーションはけっこう昔からあったようで、葉っぱの認識などが研究されています。以下のワークショップが有名です。

ImageCLEF 2011 plant identification task
http://www.imageclef.org/2012/plant

FGVCに特化した技術の開発はまだこれからという感じですが、次の論文などは個人的に好きです。

Branson S., Wah C., Babenko B., Schroff F., Welinder P., Perona P., Belongie S., “Visual Recognition with Humans in the Loop”, European Conference on Computer Vision (ECCV), Heraklion, Crete, Sept., 2010.

前述のCaltech-birdデータセットを用い鳥の種類の識別をします。単に画像だけから識別するのではなく、ユーザに対話的に質問を投げヒントをもらい識別性能を向上させます。このような枠組みは従来の一般物体認識では正当化させづらかったと思われますが、ユーザ自身にも分からない情報を得るために使うのであれば有用そうです*3。Attributeに関する教師ラベルもとれて一石二鳥かもしれません。

*1:キノコの種類の識別ができたら本当にできたらすごいですね。実際に使うのはこわいですが。。

*2:なお、今年のImageNet large scale visual recognition challengeでも、100種類の犬の識別タスクが加わるようです。http://www.image-net.org/challenges/LSVRC/2012/index

*3:ただし、自然言語処理人工知能の技術が支配的になり、画像処理がいらなくなる可能性はありそうですが・・・