第18回Language&Robotics研究会聴講(2023年10月20日)

YANO Tomoaki@

2023年10月23日 15:03

はじめに

今回は
東大松尾研究室における家庭内サービスロボットシステム構築の事例紹介

本noteは矢野の個人的な備忘録で、
事務局の公式議事録とかではありません

AIのラボからロボティクスへ東大松尾研究室における基盤モデルを活用した汎化性・適応可能性の高いロボットシステム開発

概要（HPより）

講演者：松嶋達也先生 (東京大学)
発表タイトル：AIのラボからロボティクスへ東大松尾研究室における基盤モデルを活用した汎化性・適応可能性の高いロボットシステム開発
概要：本発表では、東大松尾研究室における家庭内サービスロボットシステム構築の事例紹介を通じて、実世界のロボットシステムの特徴やデータドリブンな手法を取り入れて汎化性・柔軟性を高めるための方法に関して議論する。

以下のHP参照

12:20 - 12:25オープニング

品川先生からLangage&Robotics研究会のいつもの説明があった。
本講演の動画はYOUTUBEにアップする予定

人工知能学会誌「博士論文特集号」投稿募集のアナウンスのあと、松嶋先生にバトンタッチ

12:25 - 13:15講演（50分）

1．自己紹介

技術経営戦略専攻松尾研特任研究員

・サービスロボット開発でインクルーシブな社会を創る
・サービスロボットの開発は、学習により汎用性・安全性を確保する
（データの集積によりアプリが改善されていく、スマホアプリのイメージ）
2018年　トヨタのHSRによりサービスロボット分野に参入
2019年　谷口忠大先生の研究室を訪問し、いろいろ教えてもらう
2020年　RoboCup Japan出場
2023年　RoboCup＠Home　優勝

1．基盤モデルのロボット実装

基盤モデルの特徴
・追加学習なく、多くのタスクを実行可能
　現在、モデルを固定して指示を変更するだけでタスクを遂行できるところまで来ている
・スケーリングにより実現　現在、モデルが巨大なときのみ解ける
・言語に限らない　言語以外の多様な指示が可能
Flamingo

RT-1

Pythonプログラム作成AI

事例１）2019～2021年

画World Robot Summit トヨタHSRで準優勝
・タスク　家庭内の「かたづけ」と「取ってきて」
多くのチームが画像で分類を行っている中、CLIPを用いてテキストで分類（当時としては画期的）人間が会場でチューニング可能になり、準優勝の原動力となった

事例２）RoboCup@Home 2022～2023

学部生中心のチーム
・GPSRタスク　人間が自然言語で与えたコマンドを実施する
LLM活用　プロンプトチューニングが可能
単語ではなく文脈を解釈することで、whisperの単語認識率を上げる

コマンド理解と環境理解の双方から実行プランを構築する
実行プランの構築にGPT-4との対話を活用した
・タスクプランニング　23種類のアクションに対してスキル関数を準備
コマンド→中間プラン→関数実行
・環境における物体認識

RoboCupのあと、さらに進んだ内容を論文発表
”bring me a noodle from the long table"
不十分な情報、プランミス、スキル実行中の失敗などが起きたら、停止せずに状況を分析し、状況に適応してプランを再構築し実行する
ロバストな仕組みで作業を続行する
・不十分な情報に関して人に尋ねる
・人間に誤りを指摘してもらう
・つかみ損ねた場合、別のつかみ方を試みる

タスクの修正、発話理解の失敗、スキル実行の失敗を、人間に聞く前にGPT-4に相談し、教えてもらう
これにより、ものすごく長文で複雑な指示も、（時間はかかるが）やり遂げることができるようになった

1．ロボットに特化した基盤モデル

日本ロボット学会で「はやり」のテーマ
基盤モデル作成の方法は大きく二つに分類される
1．特徴量抽出
2．制御モデルの作成
RT-1のように大量のロボットを動かしてデータを集めるのは我々には困難

1）データセットの構築　RT-1は13万個のデータ
我々はクロスドメインでデータセットを集める
2）アーキテクチャの学習　Q値、ワードモデルの予測
3）関数
Google主導のクロスドメインデータセット学習グループ　RT-X

ロボットに特化した基盤モデルの課題

・データが多すぎてリアルタイム動作が困難
・視野から外れた環境データの記憶と活用

13:15 - 13:27　Q&A（12分）

質問はSlidoで受付.
時間いっぱい答えていただいた

録画/録音していないので、多分に主観的になっている可能性があることをご承知ください。
誤りをコメントしていただくと修正します。

Q1：基盤モデルのロボット実装で、扱いにくい問題はありましたか？
A1：APIとして提供されているものは実装が簡単なのですが、whisperなど、ローカル環境で動くアプリは計算機の資源が足りなくなるので問題が多い
Q2：RTは、ロボットの身体性の違いをどのように解決しているのか
A2：RT-Xでは、姿勢制御を基本としているのでロボットの形状に非依存にできる。トルク制御などを行うときは、姿勢制御の時のような対応関係を発見する必要がある
Q3：処理の重さをどのように解決しているのか
A3：15分で30個片付けるのは人間でもたいへんな課題。物体検出、分岐、関数を非同期で並列処理している。物体に近づいたときには、つかむ動作に入っている
Q4：指示文からAPI呼び出しの順番が書かれているのか
A4：LLMを呼び出し、LLMに任せている。LLMとの会話でどうしても解決しないときは人間に聞きに行くようになっており、作業を停止しない仕組みになっている
Q5：物理法則や常識をどのように取り入れているのか
A4：スキルプリミティブを作る研究は重要。実世界シミュレータや実世界のトライデータ収集で学習していくのが理想だが、難しいのでend-to-endを研究している研究者もいる

12:38 - 12:39クロージング

時間になったので、匿名ではないメンバーの質問に対する回答は後日公開することでクロージングとなった。

おわりに

決して止まらないロボットができつつあるのはすごいなと思った。
結局人間と同じ手順を踏んで作業を遂行することになっていくのだな。
人間の代わりに相談にのってくれるGPT-4、すごい！

本noteは私の備忘録ですが、自由に読んでくださいサポートは、興味を持ったnote投稿の購読に使用させていただきます