Paper Gestalt - n_hidekeyの日記

明けましておめでとうございます。
お正月ということで、ちょっと変わった楽しい論文(？)を紹介したいと思います。

Carven von Bearnensquash, "Paper Gestalt", Secret Proceedings of Computer Vision and Pattern Recognition, 2010.
http://vision.ucsd.edu/sites/default/files/gestalt.pdf

2010年のCVPRで参加者に配布されたジョーク論文で、UCSDの学生が書いたようです。もちろんこんな名前の人は実在しません。
ビジョン業界の査読の傾向を皮肉る内容で、「中身なんて読まなくても見た目の印象でアクセプト・リジェクトが判断できるぜ！」というのを実際に画像認識で実験してみたものです。論文自体はネタですがやってる実験はおそらくガチです。
著者は，良い論文の視覚的特徴として、

カラフルな図
かっこいい数式
ページがちゃんと埋まっていること

などを挙げており、これらを基本的な画像特徴で表現したものをpaper gestaltと名付けています。

(Cited from [Bearnensquash, 2010])

以下、内容をかなり適当にまとめてみます。

1. Introduction

近年，ビジョン系の国際会議への投稿件数は飛躍的に増えており、査読者への大きな負担となっている．
例えば，CVPRへの投稿数はこのままのペースだと2020年には2000万件を超えてしまう．

Figure 1. Paper submission trends. (Cited from [Bearnensquash, 2010])

このため，査読の自動化は重要な課題である．
本研究では，"論文の質は，中身なんて読まなくても全体のレイアウトをちら見するだけで推測できる"という直感に基づき，基本的な画像認識の技術を用いて論文のアクセプト・リジェクトを判断するシステムを構築する．

2. Previous Work

先行研究なんて，あるわけない．

3. Approach

Figure 2の様に，論文中の全8ページを横に並べ，1132x200の一枚の画像として扱う．8ページに満たない場合は白紙で埋める．
この画像から，画像特徴としてLUV ヒストグラム，HOG, gradient magnitudeを抽出し，AdaBoostによって識別器を構築する．

…ところで，我々は経験的に，数式が論文の見栄えを向上させ採択の確率を上げると考えている．その観点から判断すると，本論文中の数式の数はまだ十分でない．そこで，本論文の内容とは全く関係ないが，以下にマクスウェル方程式を記載し見栄えを向上させることにする．

4. Experiments and Results

4.1. Data Acquisition
論文が採択されるためには，良いデータセットの選択が重要であることが知られている*1．目的とする識別器を学習するためには，良い論文（正例）とダメ論文（負例）を集めなければならない．
今回は，正例としてCVPR'08, ICCV'09, CVPR'09の本会議で発表された論文を用いる．問題は負例の方で，本来はリジェクトされた論文を収集する必要がある．しかし, これは困難であるため，近似的にワークショップで発表された論文を負例として用いる事にする*2．
最終的に，1196個の正例，665個の負例からなるデータセットを構築した．

4.2. Performance Evaluation
データセットを75%の学習データ，25%のテストデータにランダムに分割し，5交差検定によって評価する．Figure 4にROCを示す．人間の査読者もどうせそれなりにミスることを考えると，15%程度の"良い論文"をリジェクトしてしまうことは許容できると考えられる．この場合，提案システムは50%以上の"ダメ論文"をリジェクトでき，査読者の負担を半減できることが分かる．

Figure 4. Obligatory ROC curve. (Cited from [Bearnensquash, 2010])

4.3. Analysis
最後に，まさに我々のこの論文(Figure 8)を提案システムに入力したところ，88.4%の確率でCVPRに採択されることが判明した．これは，カラフルな図や頭良さそうに見える数式で構成されていることが奏功したものと思われる．
我々の論文の主な欠点は8ページのうち5ページまでしか埋まっていないことである．しかしながら，通常CVPRの標準ページ数は6ページであり，7,8ページ目の収録には1ページあたり100$の超過料金が発生する．このことから，我々の論文は標準より1ページ少ないため，逆に100$を受け取ることが期待できる．

5. Conclusion and Future Work

本研究では，投稿論文の質は基本的な画像特徴から推定可能である事を示し，これをpaper gestaltと名付けた．
もちろん，このようなシステムはイタチごっこをうむ可能性があり，ダメ論文の著者はより多くのカラフルな図や数式を投入するようになるかも知れない．しかしながら，コンピュータビジョンの技術が発達すれば，そのような表面的な小細工（例えば，我々のマクスウェル方程式）は看破できるようになると信じる．

感想

いろんな意味でよくできた論文だと思います(笑)。この分野の研究者なら、誰もが「あるある」と感じるのではないでしょうか。よい論文、良い査読とは何か、考えさせられますね。

ところで、査読に使うかはともかく、このようにドキュメントを見た目そのまま画像として扱うアプローチは結構面白いのではないかと思ったりもしています。うまく使えば、自然言語処理だけでは必ずしもうまく出てこない、ドキュメントのぱっと見の印象をうまく利用できるかも知れません。

Web Page Classification Using Image Analysis Features, Viktor de Boer, MaartenW. van Someren and Tiberiu Lupascu, WEBIST 2011.
http://www.springerlink.com/content/x82786k415pn4222/

*1:D. LaLoudouana, L. Tecallonou, and J. Puzicha. Data set selection. Journal of Machine Learning Gossip.

*2:個人的に，一番爆笑したところです。ひどい…笑。念のために補足すると、本会議でリジェクトされた論文をワークショップにまわすことは確かによくあります。