シーン認識サーバを作ってみた
以前から趣味で作ってた画像認識サーバが一応動くようになったので紹介したいと思います。
http://www2268u.sakura.ne.jp/uploader/upload.php 引っ越しました。
http://www6255uf.sakura.ne.jp/sun397/upload.php
(※アップロードされた画像はその場で破棄しています。)
概要
手法
昔大学で開発した手法を焼きなおしたものを使っています。局所特徴記述子はRGB-SURFとself similarityを使っていますが、BoVW表現は用いていません。
- Hideki Nakayama, Tatsuya Harada, Yasuo Kuniyoshi, Dense Sampling Low-Level Statistics of Local Features, ACM International Conference on Image and Video Retrieval (CIVR 2009).
- Hideki Nakayama, Tatsuya Harada, Yasuo Kuniyoshi, Global Gaussian Approach for Scene Categorization using Information Geometry, IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2010).
元々これは、有名な高次局所自己相関特徴(HLAC)の枠組みを任意の局所特徴記述子で利用したものなのですが、実は最近ブレイクしつつあるFisher vectorと密接な関係があります。というか数学的にはまんまFisher vectorです*1。すなわち、ガウシアンが一つのみの場合のFisher vectorと解釈することができます。ただ、本家Fisher vectorでは分散行列の非対角要素のパラメータを省略しているのに対し、こちらでは密に全てとっている点が異なります。これは異なるエッジの相関の強さを表す情報なので、直感的にも重要なのではないかと思うわけです。
となると気になってくるのは、GMMで分散のパラメータも密にとったらどうだろうということですが、それに近いものはもうあったりします。これはFisher vectorというよりはVLADの考え方が出発点ですが、結局のところ似たような話な気がしています。
David Picard and Philippe-Henri Gosselin, IMPROVING IMAGE SIMILARITY WITH VECTORS OF LOCALLY AGGREGATED TENSORS, ICIP'11