ロボティクス基盤モデルメタサーベイ、ARTでの研究紹介、robotpaper.challengeの話

2023年12月5日 09:25

はじめに

こんにちは。産業技術総合研究所インダストリアルCPS研究センターオートメーション研究チーム（Automation Research Team; ART）の研究員、元田智大です。2023年12月5日を担当いたします。今年度のAdvent Calendarはコンピュータビジョン分野の研究コミュニティ cvpaper.challenge の研究者をクローズアップした企画とのことです。

著者はロボットマニピュレーションを専門とし、『崩さない、安全なビンピッキング』に関する技術の発展を期して日々活動しています。大学時代は、「将棋崩しをするロボット」の開発に挑戦し、バズらせよう画策しましたが（技術不足で）失敗しました。その後、「ニューラルネットワークで解決だ！」と専門性が変遷しました。結局、研究生活の大半を機械学習と共にし、マシンビジョン（画像処理、点群処理）や深層学習に実装経験の方が多いです。※なお、将棋崩しの取り組みも学位論文の一部になりました。

そんな私個人の見解もございますが、この記事では、ロボティクス分野に特化した研究コミュニティ「robotpaper.challenge」の活動を中心に、cvpaper.challengeと共同して実施した「ロボティクス基盤モデルメタサーベイ」の舞台裏や、今後の両コミュニティ間の連携をの話、そして最後に我々がもつ「ロボティクスの研究の強み、ARTの研究活動」を紹介を行います。

大きな反響があった！ロボティクス基盤モデルメタサーベイ

2023年6月22日、robotpaper.challenge、cvpaper.challenge共同で制作された「大規模言語・視覚モデルを用いたロボティクス基盤モデル」をX （旧Twitter）で公開しました。12月5日現在、9.5万回の閲覧を記録するなど想像を超える反響がありました。

Foundation Model Group メタサーベイ 2023
「大規模言語・視覚モデルを用いたロボティクス基盤モデル」
基盤モデルを如何にロボティクスに用いるか、について調査。論文サマリのみでなく言語モデル・視覚モデルとそのロボティクス応用について議論してメタ分析。https://t.co/YIFnykfM2M
— cvpaper.challenge | AI/CV研究コミュニティ (@CVpaperChalleng) June 21, 2023

ロボティクス分野は、近年の大規模言語モデル（LLM）、大規模視覚モデル（VLM）の著しい進展の影響を受け、従来を大きく上回る速度で発展しています。我々はこのようなトレンドを捉えることを目的として、基盤モデル関連論文やロボット分野のトップカンファレンスを中心に網羅的なサーベイを実施するに至りました。このサーベイは、2023年3月23日から2023年6月9日の期間に集中的に実施されました。robotpaper.challenge、cvpaper.challengeが誇る研究者たちが連携し、各々の業務の合間を縫い、論文の収集～精読～”メタ”情報の議論、を行ってきました。

メタサーベイの舞台裏

メタサーベイは大別して「最新技術」と「世界の研究動向」の調査です。私たちは異なる専門分野を持つメンバーと一緒に、2023年4月下旬から毎週オンラインミーティングを開催し、論文を読み進めるとともに、ロボティクスの中にどのような新しい流れが来ているのかを繰り返し議論しました。各メンバーはそれぞれ忙しい研究者で、仕事も持っていますが、できるだけ多くのメンバーが参加するように心がけていました。そして、2023年5月下旬にはつくば市にある産業技術総合研究所・つくばセンター（本部）に集結し、二日間にわたる密接な議論を繰り広げました。これは資料制作の最終段階に向けてのラストスパートでした。

この密接な議論の場では、オンラインでは難しい情報の共有や即時のブレインストーミングを実施しました。それぞれの専門領域から得られる知見やアプローチを交換し、研究の新たな方向性を模索しました。メンバーそれぞれの視点から生まれるアイデアは、創造的なエネルギーとなりました。

二日間の密接な協力は、単なる資料の進捗だけでなく、チームメンバー同士の親睦を深める場ともなりました。ランチやディナーの時間には、リラックスした雰囲気でアイデアやプロジェクトに関するフリートークが行われ、新たなプロジェクト（連携）や共同研究の種が蒔かれたような気分です。

密接なミーティングを終え、我々の研究チームは新たなステージに向けて準備を整えました。つくばでの集中合宿を通じて築かれた強固な協力関係と共有されたビジョンは、将来の研究活動において大いに貢献することでしょう。

そして遂に、2023年6月22日に最終版の資料が公開されました。ページ数にして168ページ。全体の構成は以下：

イントロダクション　page. 1 - page. 44
→ Transformer以前からCV/Robotics分野の歴史を紹介。直近で話題になったGPT-4についても紹介する。
論文紹介　page. 45 - page. 129
→ 大規模言語・視覚モデル分野で着目すべき論文をスライド１枚分に要約。2023年6月時点で最新の情報を提供する80本以上の論文が掲載されている。
メタサーベイ　page. 130 - page. 157
→ ロボティクスを議論の中心として、世界の研究者がどのような「戦略」をとっているのかについて、過去の研究からのトレンドに至るまでの流れを踏まえつつ、議論を展開している。
著者紹介　page. 158 -

前述通り、現在の時点で12月5日には9.5万回もの閲覧があり、想像以上の反響がありました。さらに、複数の講演に招待される[YouTube]など、これは基盤モデルが注目の的であるだけでなく、コミュニティへの強い関心が寄せられていることを示しています。

連携の話

メタサーベイ公開後、想像以上の反響に驚きましたが、ここで得た知識を次に繋げることも重要です。そこで今回、LLM/LVMをロボットへの適用する方法に関する議論の場が立ち上げられたのです。産総研内部のみならず、国内のCV専門家を交えて、産総研・臨海副都心センターで議論を行い、連携の一歩を踏み出しています（下写真）。

図：cvpaper.challenge x robotpaper.challenge. 産総研・臨海副都心センターにて合同ミーティング

今後は、ロボティクスやビジョン、人工知能などの多様な分野の専門家との議論の中で、プロジェクトを展開し、より大きな研究成果を挙げることを目指します。随時WEBサイトやSNSなどでアップデートしていきますので、引き続きご注目ください。新たな展開に胸を膨らませながら、我々の研究は一段と加速していきます。お楽しみに！

サーベイ後の私の感想

私個人の話をいたしますと、2023年1月頃にチームからサーベイの誘いがありました。当時私は産総研入所前、学位審査中だったのですが、その当時は「ChatGPT」や「RT-1」などの強烈なインパクトのある研究が登場していたタイミングでした。学位取得を目の前にして、自身の研究の専門性が大規模に整備された基盤モデルにあっさり上書きされるかもしれない。そんな恐怖心がサーベイ参加につながりました。※決して断れなかった、ということはありません。

文献を読み始めると非常に苦しい思いをしたのを記憶しています。まずLLMを理解するためには、これまでの自然言語処理の進展を学ぶ必要があり、初歩的な知識しかない私にとっては苦しい試練となりました。さらに、ロボティクスと密接な関係にあるコンピュータビジョン（CV）さえも、最近は急速に進化しており、私の知識が時代遅れことに気づかされました。

きっかけから完成までの過程はメンタル的に厳しいものでしたが、突貫工事的に私の知識や理解は比較的最新に更新されたと考えています。ただし、こうした取り組みの中で分かったのは、この分野が常に進化し続けているということです（おそらくこの瞬間も）。メタサーベイも第二弾、第三弾と継続していく必要があるでしょう。

公開中－「大規模言語・視覚モデルを用いたロボティクス基盤モデル」

引用：https://t.co/YIFnykfM2M

robotpaper.challengeは何をしてる？

ところで、cvpaper.challengeは非常に大きなコミュニティであり、今回のAdvent Calenderも活動の一部です。一方、ここまでrobotpaper.challegeには触れていませんでした。そこで、この章ではrobotpaper.challengeについて紹介しようと思います。

robotpaper.challenge

robotpaper.challengeは産総研の研究者や国内の学生を中心としたロボティクス分野のコミュニティです。近年の研究分野の動向により、コンピュータビジョンとの連携が必須であるため、実質的な活動はcvpaper.challengeと一部重複しています。しかし、ロボティクスの専門家が集まっていること、実験設備にを有することは、大きな強みだと思っています。

2019年に発足した当コミュニティは、志を同じくするメンバが集まり、新しい組織として成長しています。私たちのメンバは「ロボティクス分野の最先端を突き詰め、未来を共に切り拓く」ことを使命とし、そのために論文の読解からアイデアの孵化、白熱した議論、具現化、そして論文執筆まで、広範でダイナミックな活動に挑戦しています。さらに、我々の活動の成果をSNSや学術論文を通じて積極的に共有し、知識の波及と交流を促進しています。

自分の専門分野だからこそ、もっと論文を読みます！

前述のメタサーベイを経て、自分の専門分野に対する情熱が高まり、ますます新しい知識を求めて論文に没頭しています。

そこで、最近のrobotpaper.challengeは、国際学会の文献調査を行い、そのサマリーや気づきをまとめた資料をオープンに公開しています。これは私自身の専門分野をより深化させるだけでなく、他の専門家との連携を強化する一環としています。個々の専門を深化させるために、膨大な論文の読破にチャレンジしています。

また、X（旧Twitter）上では毎回の閲覧数が3万回以上を記録しています。国内の研究者や学生からは「ありがたい！」「こういうのが欲しかった！」といった声が寄せられています。大学研究室や企業、研究所で行われている網羅的なサーベイや勉強会に関しても、全体を俯瞰しながら資料をオープンに公開するケースは意外にも少なかったようです。最近では、「資料を見ました」「どうやって作成したんですか？」「全体を見た上でどのように感じましたか？」など、有意義な会話が生まれ、新しい知見を共有するプラットフォームとしての役割を果たしています。これからも新たな発見と共有を楽しみにしています！

あくまでも同人活動的で利益を得るものではありません。もちろん、研究者としても成果にはなりません。ただ、未熟な若手研究者の私にとって大きなメリットがあります。

メリット：
- 「資料を作成する！」という半強制的な目標のおかげで、興味・関心だけに依らず幅広い分野の論文を読む機会を得る。「好き嫌いしないでなんでも食べなさい！」と言わんばかりの広範な知識獲得が可能です。
- 全体の動向を自分の眼をもって知ることができること。説明が非常に難しいのですが、「○○の手法は至るところで採用されている。影響力は▲▲の研究にも至る」「○○の研究が芽が出始めている」など、表面に現れない真実を得ることができます。
デメリット：
- 当然時間がかかる。コミュニティを拡大することで、協力者を増やさなければなりません。
- 仕事ではないので、他の活動を遮るものであってはいけません。
- 公開される関係上、誤りは許されません。また、拙い資料は自分の研究者としても評価を下げる可能性さえあります。
- 読むべき論文数の消化、速報性などを考えると、一本一本を精読する時間はありません。うっかりして深く読み始めると、終わりが見えないことも。

総じて、メリットとデメリットが存在する中でバランスを取りながら資料作成に取り組んでいます。

なお、robotpaper.challengeでは、学生・技術者・研究者を問わず、論文に興味がある方、ブレストに参加したい方、共同で研究を進めたい方、また論文を共同で執筆したい方を常時募集しています！後日のAdvent Calendar（12/19）にてrobotpaper.challengeについて詳細な紹介があるみたいなので、そちらもお楽しみに！

これまで作成した資料（抜粋）:
CoRL（Conference on Robot Learning）[2023] https://speakerdeck.com/rpc/corl2023su-bao
IROS（IEEE/RSJ International Conference on Intelligent Robots and Systems）[2023] https://speakerdeck.com/rpc/iros2023-bao-gao [2020] https://www.slideshare.net/robotpaperchallenge/iros2020-survey
ICRA（IEEE International Conference on Robotics and Automation） [2020] https://www.slideshare.net/robotpaperchallenge/icra2020-open-survey-237952644

出典：robotpaper.challenge (google.com)

ART技術を知ってほしい！

筆者は、産業技術総合研究所オートメーション研究チーム（ART）に所属しています。実は、前述の資料の多くは、我々のチームのメンバが中心となって作成したものです。

そこで、ARTが持つ技術的な強み、具体的な研究成果や取り組みについて、どのような問題に取り組んでいるか、どんな新しいアイデアや技術が結果に繋がっているかを紹介します。

オートメーション研究チーム（ART）とは？

オートメーション研究チーム（ART）はロボットマニピュレーションやコンピュータビジョンの分野で幅広い経験を持つ研究者や技術者で構成されています。大学ポストを兼務するアカデミックな研究者から、大手メーカーやベンチャーでの研究開発経験を持つ実用派の技術者まで、異なるバックグラウンドを持つメンバが在籍しています。

ARTの環境ではロボット研究にとって、理想的なプラットフォームが整っています。例えば、UR5、KUKA iiwa、Nextageなどのロボットアーム、Fetch RobotやHello robotなどのモバイルマニピュレータなどが利用可能です。これに加えて、PhoXi（3Dセンサ）、EinScan（3Dスキャナ）、oculus（VR）、Mocap（モーションキャプチャ）などの先端的なテクノロジーも取り入れたシステムインテグレーションに取り組んでいます。チーム独自はGit環境のドキュメントやサンプルコードの他、誰でも利用できるオープンウェアを整備しています。チーム内の専門技術は常に共有されており、研究アイディアをいち早く実装できるのは大きな強みです。

図：ART所有の実験環境。所狭しとロボット実験環境が整備されており、日々研究が行われている。

その他、新たな技術を試すことを可能とするテストベッド環境として製造分野における工場環境、物流分野におけるコンビニ模擬実験環境（下図）を構築しており、共同研究、コンソーシアム連携による産学官連携活動を推進しています。
次節より、主要な研究テーマをご紹介いたします。

研究紹介①：生産性の持続的向上と人の負担軽減を両立するデジタルツイン

開発されたサイバーフィジカルシステムは、デジタルツインを利用しており、人とロボットの身体や作業状態をリアルタイムに計測し、仮想空間内のデジタルヒューマンやロボットモデルを即座に更新できるよいう特長があります。デジタルヒューマンを用いた力学的解析により、作業中の人の身体負荷を瞬時に推定でき、人とロボットの適切な距離を計算することも可能です。異種センサーの組み合わせによる信頼性向上や、作業者ごとのスキルや身体的な違いを考慮した協調作業の計画など、人の安全性と生産性を両立させる柔軟なシステムが実現しました。

研究紹介②：現実では得難いクロスモーダルな感覚の獲得と作業応用

花井らは視覚センサーを使用して物体の接触から生じる力の分布を3Dで可視化するAI技術「Forcemap」を開発しました。この技術では、物体同士の接触による力を画像から推定し、力の大きさを色で表現します。開発したAIは未知の物体にも対応し、シミュレーション内で学習したものを追加学習なしに現実世界に適用できるゼロショット転移を実現しています。その結果、このAI技術を用いることで、1枚の画像から物体間の力分布をリアルタイムに推定することができるようになりました。

研究紹介③：実機を使わずにシミュレーションだけで部品供給や組み付け作業を学習

物体操作の学習において、シミュレーションと深層学習を組み合わせ、実機を使用せずに部品の取り出し作業を行うことを可能にしました。シミュレーション上で物体の絡み具合を再現することで、難しい作業を短時間で学習できるようになりました。また、成功率も90%と高い値を誇っており、実機よりも時間と手間を削減しています。組み立て作業の計画技術では、実演映像を用いた即時模倣を実現しました。専門的な知識不要で作業者が手作業を実演するだけで、ロボットが独自に組み立て作業を模倣してくれます。これにより、プログラム作業や教示にかかる時間を大幅に短縮しました。その他、視覚に基づく作業の高速化技術では、ロボットハンドの画像データ処理を効率的に圧縮・復元しています。把持位置検出の計算時間を最大1/3まで削減し、物体つかみの速度向上を実現しました。[link]

図：製造現場におけるロボットの自律的な部品供給・組立作業を実現する人工知能（AI）技術

ARTに興味のある方はご連絡ください！

産総研オートメーション研究チームの強みをご理解いただけましたでしょうか？共同研究、技術コンサルなど、企業連携を受け付けています。チーム員や技術にご興味のある方はぜひお声がけください。チームのwebサイト[https://unit.aist.go.jp/icps/icps-am/]もご参照ください！

また、チームへの参加を希望する学生・研究者・エンジニアを募集中です。詳細は下記をご確認ください。

博士前期・後期課程の学生：産総研リサーチアシスタント制度を活用できます。詳しい産総研RA制度についてはホームページをご確認ください。前期課程と後期課程では条件が異なります。https://www.aist.go.jp/aist_j/business/alliance/ra/ra_index.html
常勤：https://www.aist.go.jp/aist_j/humanres/02kenkyu/index.html
ポスドク：https://www.aist.go.jp/aist_j/humanres/04keiyaku/index.html
エンジニア志望者：テクニカルスタッフ採用があります。詳しい制度はhttps://www.aist.go.jp/aist_j/humanres/04keiyaku/index.html

おわりに

　この記事を通じて、ロボティクス基盤モデルメタサーベイの重要性やARTでの最新研究、そしてrobotpaper.challengeが提供する研究者同士の交流の場について理解していただきたいと考えています。

未来のロボティクス分野を一緒に切り拓いていく旅に、ぜひご一緒に参加していただきたいと願っています。これからも夢と情熱にあふれた未来を一緒に築いていきましょう！

この記事が気に入ったらサポートをしてみませんか？