類似画像検索の改善に向けた取り組みを紹介!〜VASILY DEVELOPERS BLOGが公開されました〜

こんにちは、広報の坂井です。

6月16日(金)、VASILY DEVELOPERS BLOGが公開されました。

今回のタイトルは“自己回帰型モデル周りの深層学習”、担当はデータサイエンスチームインターンの上月です!

tech.vasily.jp

f:id:vasilyjp:20170616105505j:plain

さっそく解説してもらいました!


ー まず、今回はどのような内容でしょうか…?

類似画像検索の手法について紹介しています。

VASILYでは、類似画像検索にオートエンコーダーで抽出した潜在変数(特徴量)を利用しています。

オートエンコーダーではまず、もともと480×480×3個の数字で表されている画像を128個の数字に簡略化して表します。その数字からいかに正確に元の画像を再現できるかで、どれだけ元の画像を要約できているかを表していると考えて、数列同士の近い物を類似として扱う手法です。


以下の図(※1)のように、左のトップスを数字に置き換え簡略化し、そこから左のトップス画像を生成しています。

f:id:vasilyjp:20170616104412p:plain

(※1)引用:TJ TORRES、Deep Style: Inferring the Unknown to Predict the Future of Fashion、MultiThreaded Technology at Stitch Fix、17 Sep 2015

 

ー なぜ簡略化するのでしょうか?

全ての数字を使うよりも早く計算ができて、且つ不要な情報を削ぎ落とすことができるためです。

アイテムの類似検索を行う上で、例えば背景の色やモデルの顔などは不要な情報なので、そういった不要な部分の情報が落とされることを期待して少ない数字で表しています。

例えば、僕についての情報を表すときに“前髪は何cmで目の幅は何cmで…”と細かく説明しなくても人は分かると思うので、一旦僕の細かい情報を5項目くらいにまとめて、そこから僕を再現するようなイメージです。

 

ー なるほど。それがVASILYで行っていることで、今回は他の手法も紹介しているんですね?

はい。簡略化した数列から画像を生成したとき、その画像が元の画像を上手く再現できていれば、数列は適切な情報を持っているだろうと考えられます。

そこで、簡略化した数列から画像を生成する能力が高いモデルを紹介しています。

 

ー それはどういうものでしょうか?

自己回帰モデル(AR=Autoregressive)」という手法について紹介しています。これは、既に生成した部分を元にそれ以降を予測する手法で、画像を左上から右下へと1ピクセルずつ順番に生成します。

これをオートエンコーダーに応用すれば、簡略化した数列がより類似検索に適したものになる可能性があります。

例えば以下の図(※2)のように上半分の画像を入力した時、機械が下半分を予測して生成し表示させることがきでます。大量にデータを学習させているからこそできることなのですが、これを画像生成の中で活かせる方法があると考えています。

f:id:vasilyjp:20170616104658p:plain

(※2) 引用:Aaron van den Oord ・Nal Kalchbrenner・Koray Kavukcuoglu、Pixel Recurrent Neural Networks、Cornell University Library、19 Aug 2016

 

ー 予測して画像を生成…すごいですね(0_0)

類似画像検索に応用できそうな画像解析に関する手法は多く、近年急速に研究が進んでいる分野なので、今後更に精度の高い手法を使って良いサービスを提供できるよう、研究開発を進めていきます!


上月くんありがとうございました!

彼は現在大学とVASILYインターンを両立しており、昨年のIBISで発表した内容にも彼の研究調査の成果が含まれています!

IBISの記事はこちらをご覧ください。

tech.vasily.jp

上月くんのインタビューはこちらをご覧ください。

company.vasily.jp

VASILYでは現在サマーインターンを募集中です。この夏、現場でサービス作りに挑戦してみませんか?ご応募お待ちしております!

 

【お問い合わせ】
株式会社VASILY 広報担当
press@vasily.jp