大量の画像で出来ること

世の中はビッグデータ一色のようですね。コンピュータビジョン界隈でも大量の画像データで何が出来るかは盛んに議論されています。今日は有名なのを軽くまとめてみたいと思います。

画像内容認識

一番分かりやすいのは、大量のラベル付画像データを用いたパターン認識です。"More data beats better algorithm" はあちこちで言われていますが、画像認識の分野もこの方向へ進んでいます。あまり面倒くさいことしなくても、単純なノンパラメトリック手法(k最近傍法とか)で十分なんじゃないか、みたいなお話です。
いろいろあるのですが、特に有名なのはMITのTorralbaさんの研究でしょうか。

A. Torralba, R. Fergus, W. T. Freeman, 80 million tiny images: a large dataset for non-parametric object and scene recognition, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.30(11), pp. 1958-1970, 2008.
http://groups.csail.mit.edu/vision/TinyImages/

また、MSRAではこの方向の研究が精力的に行われています。以下の論文では、20億枚もの画像を用いて画像アノテーションを行っています。

Xin-Jing Wang, Lei Zhang, Ming Liu, Yi Li, Wei-Ying Ma, ARISTA - Image Search to Annotation on Billions of Web Photos, IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2010.
http://research.microsoft.com/en-us/projects/arista/overivew.aspx

ソーシャル画像のマイニングも熱いトピックみたいです。顔画像なんかでは一部実用化されつつあるようですが・・・

By Zak Stone, Todd Zickler, and Trevor Darrell, Toward Large-Scale Face Recognition Using Social Network Context, Proceedings of the IEEE | Vol. 98, No. 8, August 2010

また、時間軸に沿った大規模データがあれば、画像トピックの時系列的なマイニングもできるかも、とのこと。

Gunhee Kim, Eric P.Xing, and Antonio Torralba, Modeling and Analysis of Dynamic Behaviors of Web Image Collections, European Conference on Computer Vision (ECCV 2010), Crete, Greece, September 5-11, 2010.
http://www.cs.cmu.edu/~gunhee/r_dynamic.html

大規模画像内容認識については、手法的な部分も含めいずれもう少し詳しくまとめたいです。

画像文章化

上の画像認識とけっこうかぶるのですが、最近では単に画像をカテゴライズするだけでなく、自然言語で要約しようという試みも増えつつあります。ただ、まだあまり大規模にやっているものは少ないようです。

  • Ali Farhadi, Seyyed Mohammad Mohsen Hejrati, Mohammad Amin Sadeghi, Peter Young, Cyrus Rashtchian, Julia Hockenmaier, David A. Forsyth, Every Picture Tells a Story: Generating Sentences from Images, ECCV 2010.
  • Siming Li, Girish Kulkarni, Tamara L Berg, Alexander C Berg, and Yejin Choi, Composing Simple Image Descriptions using Web-scale N-grams, CoNLL 2011
  • Yezhou Yang, Ching Lik, Hal Daum´e III, and Yiannis Aloimonos, Corpus-Guided Sentence Generation of Natural Images, EMNLP 2011
  • Vicente Ordonez, Girish Kulkarni, Tamara L. Berg, Im2Text: Describing Images Using 1 Million Captioned Photographs, NIPS 2011
  • Yoshitaka Ushiku, Tatsuya Harada, Yasuo Kuniyoshi: Automatic Sentence Generation from Images, ACM Multimedia 2011

自然言語処理の学会で発表される場合もあり、今後さらに増えそうです。

画像の品質・芸術性評価

画像投稿サイトでは、多くの人が投稿された画像に評価やコメントをつけています。これらを利用して学習を行うことで、画像のよしあしの推定が自動で行えるようになりつつあります。

  • Masashi Nishiyama, Takahiro Okabe, Imari Sato, Yoichi Sato, Aesthetic Quality Classification of Photographs Based on Color Harmony, CVPR 2011
  • Sagnik Dhar, Vicente Ordonez, Tamara Berg, High Level Describable Attributes for Predicting Aesthetics and Interestingness, CVPR 2011

画像・位置変換

近年では、画像の撮影場所が記録されたジオタグ付画像も大量に存在します。次の研究では、ある画像と類似したジオタグ付画像を検索することで、その画像が世界のどこで撮影されたかを推定します。

James Hays and Alexei A. Efros, IM2GPS: estimating geographic information from a single image, CVPR 2008
http://graphics.cs.cmu.edu/projects/im2gps/

Chao-Yeh Chen and Kristen Grauman, Clues from the Beaten Path: Location Estimation with Bursty Sequences of Tourist Photos, CVPR 2011
http://vision.cs.utexas.edu/projects/location-estimation/cvpr2011_location.htm

画像補完

次の研究では、類似画像を利用して画像の補完を行います。Computational photographyの分野でよくやられているタスクです。これも非常に有名です。

James Hays and Alexei Efros, Scene Completion Using Millions of Photographs, ACM Transactions on Graphics (SIGGRAPH 2007). August 2007, vol. 26, No. 3.
http://graphics.cs.cmu.edu/projects/scene-completion/

三次元再構築

これまでのとは少し毛色が違いますが、大量の画像の3次元的な位置あわせをしながら、元の3次元構造物の復元をすることができます。

Noah Snavely, Steven M. Seitz, Richard Szeliski, "Photo tourism: Exploring photo collections in 3D," ACM Transactions on Graphics (SIGGRAPH Proceedings), 25(3), 2006, 835-846.
http://phototour.cs.washington.edu/

Sameer Agarwal, Noah Snavely, Ian Simon, Steven M. Seitz and Richard Szeliski, Building Rome in a Day, ICCV 2009
http://grail.cs.washington.edu/rome/

最近の研究では、点群だけでなくかなり密に復元することもできます。リンク先のビデオはなかなか圧巻です。

Yasutaka Furukawa, Brian Curless, Steven M. Seitz and Richard Szeliski, Towards Internet-scale Multi-view Stereo, CVPR 2010
http://www.youtube.com/watch?v=ofHFOr2nRxU

時系列に沿って復元することも出来るようになってきたみたいです。古い画像にはタイムスタンプがない場合がほとんどなので、推定しながら復元するみたいです。

Grant Schindler and Frank Dellaert, Probabilistic Temporal Inference on Reconstructed 3D Scenes, CVPR 2010

世の中の進歩は速いですね。今後どうなっていくか楽しみです。