パナソニック コネクト㈱は7月16日、画像認識世界最高峰の学会、CVPR2024のコンペ「Ego4D EgoSchemaChallenge(※1)」において、3分間の動画を見て、「映像の中の人物の行動から、人物が何をしようとしているのかを推測してください」等の質問に対する最適な回答を5つの選択肢から選んでAI認識技術で回答するタスク(Video Question Answering:VideoQAタスク)に取り組み、開発した生成AIマルチエージェントシステムにより正解率71%を達成し、世界で2位の評価を獲得したと発表した。
静止画を認識する能力と異なり、動画の内容を理解して質問に答えるためには、長時間の動画の中で時間の経過に伴い変化する様々な動きの中から重要な行動やその目的を認識して判断し、同時に言語で表現された質問文と回答文を解釈する必要があり、動画と言語の相互理解を行う高度な技術開発が求められる。同社は2021年の同学会で受賞歴のある動画を用いた行動予測タスクの研究開発経験(※2)を活かし、動画と自然言語処理の融合領域であるVideo Question Answeringタスクにチャレンジした。
●AIマルチエージェントシステムについて
今回のコンペに臨むに当たり、様々な質問に対して適切な回答を生成することが可能な大規模言語モデル(LLM)の活用に着目した。大規模言語モデルの最近の研究では、AIマルチエージェントにディベートさせることで回答の精度を高める方法(※3)や、AIエージェントが複数の役割をこなすマルチペルソナアプローチ(※4)も研究が行われている。これらの既存の研究を基に、動画を分析して自動生成した複数エージェントに基づくVideoQAシステム(VDMA:Video Question Answering with Dynamically Generated Multi-Agents)を新たに開発した。
●AIマルチエージェントシステムを用いたVideo Question Answeringの仕組み

●3分間の動画の時系列のスクリーンショットと質問と回答例

●今後の展望
これまでの画像認識技術は、人がいること、モノがそこにあること、人の手で何かを持っているといったその場、その時の事象を把握することに限られていたが、今回のAIマルチエージェントシステムの開発を通じて、長い動画の内容を過去からの経緯を理解して推測、判断することが可能になる。
同社は、なぜ人がそこにいるのか、それを持っているのか、何をしようとしているのか、を把握することで、人が次に取るべき行動の推奨や、過去から今に至るまでの一連の行動の中から修正や改善が望まれる行動の抽出に活用できるようになると考えている。例えば、工場のものづくりの工程の中で非効率な作業を把握し、工程の見直しが可能となるため、製造の現場の改善につながる。今後は、パナソニック コネクトが事業領域として注力しているサプライチェーンの領域、製造、物流、流通の現場でのAIマルチエージェントシステムの活用を視野に、さらなる開発に取り組んでいくとしている。
※1:1人称視点の動画と、動画に関する質問文、質問に対する5つの回答文選択肢が与えられ、動画に関する質問文に対して最も適した回答文を選択すること(Video Question Answering:VideoQAタスク)を競う大会。
※2:世界最高峰の画像認識国際学会 CVPR2021のワークショップの1つ。パナソニックは「EPIC-KITCHENS-100 2021 Challenges」コンテスト動作予測部門で準優勝の実績を持つ。
※3:Yilun Du, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum, and Igor Mordatch. Improving factuality and reasoning in language models through multiagent debate. ArXiv, abs/2305.14325, 2023. 1, 4.
※4:Zhenhailong Wang, Shaoguang Mao, Wenshan Wu, Tao Ge, Furu Wei, and Heng Ji. Unleashing cognitive synergy in large language models: A task-solving agent through multi-persona self-collaboration. arXiv preprint arXiv:2307.05300, 2023. 1.