Go to contents

前だけを見て、後ろ姿まで突き止めるAI

前だけを見て、後ろ姿まで突き止めるAI

Posted June. 15, 2018 09:21,   

Updated June. 15, 2018 09:21

한국어

人間は様々な角度から物事を見て、これを総合して物事の3次元(3D)の形状を認知する。経験が蓄積すれば、前後に回して見なくても、物事の立体的な姿を予想できる。空間構造や物体の空間上の位置を認識するときも同じである。囲碁の人工知能(AI)「アルファゴ」で世界を騒がせたグーグルのディープマインドが、今度は人間の観察能力を持つAIを開発して話題となっている。

「ジェネレーティブ・クエリ・ネットワーク(GQN)」と呼ばれるこのAIは、一部の限られた角度から見た2次元(2D)のシーンを基に、空間や物の全体的な立体構造を予測して、3Dで作ってくれる。おかげで観察角度では見ることができなかった物の裏など、あらゆる角度からのシーンを見ることができる。自ら周りを認識して能動的に反応するロボット、自律自動車などを開発するきっかけになると予想される。

グーグル・ディープマインドのアリ・イスラミ研究員チームは、このような内容の研究結果を国際学術誌「サイエンス」の15日付に発表した。グーグルディープマインドのデミス・ハサビス最高経営責任者(CEO)も、今回の研究に共著者として参加した。イスラミ研究員は、「人と同じように、コンピュータが立体的な空間を認知できるようにした」と説明した。

既存のAI視覚システムは、同じ物を様々な角度から見たシーンと一緒に、各シーンに込められたさまざまな情報を一緒に入力しなければならなかった。シーンの方向(正面、側面など)とシーンの中の物の空間上の位置、特定物事のピクセル範囲などを一つ一つ表示した膨大な量の学習データが必要だった。学習データを作るのにあまりにも多くの時間がかかっただけでなく、複雑な空間や曲面で構成されたものは、正しく認識できない限界があった。

一方、GQNは、人間が入力した学習データに依存しない。空間や物事を様々な角度から観察するだけで、立体的な構造を自ら把握し、見ることのできなかった様々なシーンまでイメージで作り出す。迷路の中で隅々を観察した後、迷路全体の3Dマップを作成したり、空間を動画で見ることも可能である。ソウル大学の李炅武(イ・ギョンム)電気情報工学部教授は、「人が一つ一つ教えなければならかったマシンラーニング(機械学習)の根本的な限界を超えた結果、人間の知覚能力に最も近づいたと言える」と語った。

GQNは大きく、「表現ネットワーク」と「生成ネットワーク」に分けられる。研究チームは、コンピュータで作成した仮想の3D空間を利用して、二つのネットワークを学習させた。仮想空間には、立方体のような図形から複雑な構造のロボットアームまで、さまざまなものをランダムに配置した。

まず、仮想空間で観察カメラが移動しながら、さまざまな角度から見たシーンをキャプチャする。表現ネットワークは、この2Dシーンを総合して空間の3D構造と物の色と形、位置などの重要情報を把握する。これをもとに生成ネットワークが先に観察しなかった新しい角度から見たシーンを予測して、イメージにしてくれるものである。生成されたイメージを、実際のシーンと比較した結果、肉眼で区別が困難なレベルまで一致した。ちょうどイ教授は、「実際環境に適用するには、仮想空間ではなく、動く物体のある実際の空間での訓練が必要だ」と付け加えた。

ディープマインドは昨年10月、人間の囲碁棋譜なく独学で無敗の境地に上がった「アルファゴゼロ」を披露後、研究分野を多様に拡大している。先月は、英ロンドンカレッジの研究チームと一緒に、動物の脳で位置感覚を担当する神経細胞の機能を模倣し、人間をはじめとする哺乳類の道探し能力を持つAIを開発して、国際学術誌「ネイチャー」に発表したことがある。


ソン・ギョンウン記者 kyungeun@donga.com