キャプション生成 – Kobayashi Laboratory

キャプション生成

❏ ペン先の軌跡から説明者の意図を反映した画像キャプション生成

概要

近年、画像キャプショニングの研究は、Faster R-CNNやSemantic Segmentationといった手法を用いて画像の内容を捉え、その結果から画像内のオブジェクト間の関係を捉えるシーングラフを構築し、そのグラフに基づきキャプションを生成するものなど、画像の内容を深く捉える手法に基づくキャプション生成手法が提案されている。一方で、生成されるキャプションは多くの場合、用いられる学習データに依存しており、画像内容を説明する者の意図が反映される結果ではない場合が多い。このことを踏まえて、近年では、キャプション生成を制御する為のコントロールシグナルと呼ばれる追加情報を与えて、説明者の意図に近いキャプションを生成する研究なども取り上げられてきている。しかし、与えられるコントロールシグナルはキャプション内容に言及したものが多く、説明者の感覚や興味に沿うインタラクティブな画像キャプション生成の報告はあまりない。このことから、本研究では、音声で画像を説明する際に説明の描画領域を指したトレースデータをもつLocalized Narrativesを用いて、トレースにより画像の注視点を与えた画像キャプショニング手法を提案する。

研究スライド

watanabe-1

渡邊清子（Sayako Watanabe）

渡邊清子，小林一郎「ペン先の軌跡から説明者の意図を反映した画像キャプション生成」人工知能学会全国大会（第36回），国立京都国際会館，京都，2022年6月． 大会優秀賞（インタラクティブ部門）

❏ VQAベースの画像キャプションシステム

概要

人間は好きなように画像コンテンツを説明できるが、ほとんどの画像処理モデルは意図にとらわれず、さまざまなユーザーの意図に応じてさまざまな説明を積極的に生成することはできない。この状況を解決するために、同じ画像に対して異なる質問をすることにより、異なるキャプションと回答を得ることができるキャプション生成手法を開発する。研究手法として、テキストはDistilBERTに入力され、すべての非表示レイヤーの出力が取得される。画像は前処理され、Vision Transformerに入力され、最後の非表示レイヤーとして出力される。次に、3層のクロスアテンションを与えて、2つの入力を取得し、最後に、言語出力と視覚出力の2つの出力を取得する。視覚的な出力は、画像にbounding boxを生成するために使用される。言語出力のすべての隠れ層変数は、キャプションを生成するためにデコーダーに出力される。さらに、隠れ層の最初のトークンがsoftmaxによる分類に使用され、answer出力が取得される。

研究スライド

du-1

杜静怡（Jingyi Du）