書籍紹介: Visual Object Recognition

Visual Object Recognition (Synthesis Lectures on Artificial Intelligence and Machine Learning)作者: Kristen Grauman,Bastian Leibe出版社/メーカー: Morgan & Claypool Publishers発売日: 2011/02/28メディア: ペーパーバック購入: 12人 クリック: 18…

Fine-grained visual categorization

一般物体認識は技術的興味の対象としては魅力的ですが、結局のところ何の役に立つのでしょうか?一般物体認識は、人間にとっていわば「常識」にあたるような基本概念の獲得を目指すものですが、常識であるがゆえに意外と使いどころがないのが実情かもしれま…

Sift on GPU

SiftGPUを動かしてみたのでメモ環境:CentOS6.0(64bit), GeForce9600GT CUDAインストール ここから、nvidiaドライバとCUDAのツールキットをダウンロードする。 http://developer.nvidia.com/cuda-toolkit-41 NVIDIA-Linux-x86_64-285.05.33.run cudatoolkit_…

Does Content Matter?

今日は、最近読んでいろいろ考えさせられた論文について紹介したいと思います。 Web-Scale Multimedia Analysis: Does Content Matter? IEEE MultiMedia. 18(2): 12–15 (2011) (pdf) http://www.slaney.org/malcolm/yahoo/VisionAndViews/Spring2011-DoesCon…

新型BoVW

いよいよ、従来のBoVWに変わる新しい特徴表現方法を見ていきます。これらの新しい特徴は直接線形手法に適用できるように設計されており、線形SVMと合わせて用いられることが多いです。 前置き 一枚の画像からBoVW(或いは、それに類する枠組み)によって特徴…

従来型BoVWの変換

Explicit feature map これに関してはどちらかというと識別器の工夫で、BoVWという表現そのものは何も変わりないのですがけっこう大事だと思うので。冒頭で述べたようにBoVWには非線形カーネルの利用が必要でした。もともとカーネルはunknownな高次元空間に…

次世代BoVWまとめ

以前のエントリでも述べましたが、bag of visual words(BoVW)は一般物体認識における標準的な画像特徴表現であり、非常によく用いられます。ですが、BoVWはこの3年ほどで急速に進歩しており、よく見られる「k-meansでクラスタリング → ヒストグラム作成 →…

大規模画像データセット

最近は画像認識・検索で用いられるデータセットも大規模化が進んでいます。 いくつか代表的なものや最近見つけたものをまとめてみます。 (ここでの目安は、教師つきデータは10万枚以上、教師なしデータは100万枚以上のもの) ImageNet http://www.image-net…

Paper Gestalt

明けましておめでとうございます。 お正月ということで、ちょっと変わった楽しい論文(?)を紹介したいと思います。 Carven von Bearnensquash, "Paper Gestalt", Secret Proceedings of Computer Vision and Pattern Recognition, 2010. http://vision.ucsd.…

シーン認識サーバを作ってみた

以前から趣味で作ってた画像認識サーバが一応動くようになったので紹介したいと思います。 http://www2268u.sakura.ne.jp/uploader/upload.php 引っ越しました。 http://www6255uf.sakura.ne.jp/sun397/upload.php(※アップロードされた画像はその場で破棄し…

シーン認識データセット

今日は、画像のシーン認識の歴史について、データセットを中心にまとめてみたいと思います。 シーン認識というと人によっていろいろ違うものを想像する気がしますが、ここで扱うのは単純な画像全体のカテゴライゼーションの問題です。 Caltech101みたいな物…

大量の画像で出来ること

世の中はビッグデータ一色のようですね。コンピュータビジョン界隈でも大量の画像データで何が出来るかは盛んに議論されています。今日は有名なのを軽くまとめてみたいと思います。 画像内容認識 一番分かりやすいのは、大量のラベル付画像データを用いたパ…

Bag of Visual Words

Bag of visual words (BoVW)は、一般物体認識において現在最も広く普及している画像特徴表現で、画像中の多数の局所特徴をベクトル量子化しヒストグラムにしたものです。最近はOpenCVなどのツールの普及により使いやすくなってきましたが、実際に使ってみよ…

Self similarity descriptor

Self similarityは面白い特徴で、個々の画像内での類似したパッチのなす形状を抽出するものです。世の中の大半の特徴は輝度勾配ベースなのに対し、この特徴は質的に異なる情報をとれるため注目されています。 http://www.wisdom.weizmann.ac.il/~vision/Self…

Octaveでdeformable part modelを使ってみる (2)

著者のページから最新のコードをダウンロードして展開します。 ディレクトリ内でoctaveを立ち上げ、まずmexでCファイルをコンパイルします。 $ cd voc-release4 $ octave octave:1> mex dt.cc octave:2> mex features.cc octave:3> mex fconv.cc octave:4> m…

Octaveでdeformable part modelを使ってみる (1)

Deformable part model*1は近年特に注目を浴びている一般物体検出手法で、デファクトスタンダードとしての地位を固めつつあります。人気の理由として、認識精度のよさや理論的な面白さなどがあげられますが、やはり開発者がしっかりしたソースコードを提供し…

convertと標準入出力

そういえば、ImageMagickのconvertで標準入出力ってどうやって使うんだろうと気になったのでやってみました。といっても至極簡単で、 $ convert -strip XXX.jpg ppm:- | ./compute_gistのようにハイフンで指定するだけのようです。明示的にフォーマットを指…

画像サイズと認識率

GISTは比較的計算コストが小さい特徴量ですが、やはりそれなりに時間がかかります。手っ取り早く処理を軽くするには画像サイズを小さくすることが考えられますが、認識精度との兼ね合いが気になるので調べてみます。ベンチマークは、前回と同じMITのシーン画…

GISTで画像認識

せっかくなのでGISTで画像認識をやってみます。 GISTは画像全体のシーン認識を目的に設計されており、このタスクに特に適しているとされています。まず、GISTの開発者が提供している、8クラスのシーン画像データセットで試してみます。 以下のページからImag…

GIST特徴抽出

GISTは代表的な大域的画像特徴量(画像全体から求まる特徴ベクトル)の一つです。コンピュータビジョン、特に一般物体認識の大家であるA.Torralbaらによって開発された特徴量*1で、現在でもしばしば用いられます。コピー画像検出タスクなどでは、bag-of-word…

CentOSにRを入れてみた

ここから必要なrpmパッケージを落とす。 まずR本体のインストール。 $ rpm -ivh R-2.13.0-2.el6.rf.x86_64.rpm エラー: 依存性の欠如: libtcl8.5.so()(64bit) は R-2.13.0-2.el6.rf.x86_64 に必要とされています libtk8.5.so()(64bit) は R-2.13.0-2.el6.rf.…