話題のロボットベンチャーがデモを公開。言語から世界モデルへ。

2024年3月14日 08:34

以前に、サム・アルトマンとイーロン・マスクのバトルについて触れました。

その引き金の１つが、Figureというロボットベンチャーへの出資で、テスラが作る人型ロボットの脅威になるかも、ということです。

で、ついにそのロボットのデモが公開されました。Xの投稿（これも仕方ないですが皮肉ですね＾＾；）を引用。

With OpenAI, Figure 01 can now have full conversations with people

-OpenAI models provide high-level visual and language intelligence
-Figure neural networks deliver fast, low-level, dexterous robot actions

Everything in this video is a neural network: pic.twitter.com/OJzMjCv443
— Figure (@Figure_robot) March 13, 2024

この情報だけでは詳細はわからず、エンジンにあたるAIはニューラルネットワーク、しか書いてないです。

おそらくはTransformerをベースに、マルチモーダル用のLLMを開発したのだろうと思います。

動画だけではびっくりとまではいきませんでしたが、滑らかに会話しているのは事実です。

今後の続報に期待したいと思います。

テキストの会話はChatGPT登場以降、バトルロイヤル状態ですが（最近の関連投稿を引用）

せっかくなので、最近気になっているもう１つのマルチモーダルモデルを紹介します。

Covariantという企業が開発しているRFM1です。

こちらも、まずはデモ動画を見たほうが良いかもです。

産業ロボット色が強く、もうそのまま使えそうですね。
ちなみに、昔からこの手のロボットは存在し、日本ではFA（Factory Automation）として世界的リーダー企業「安川」「ファナック」があります。もちろん今はAIにガシガシ投資しています。

従来のFAと異なるのはその多能性かなと感じました。

上記サイトでも説明していますが、相当多様な動画をはじめとした学習データを使ったそうです。

ちなみに、こちらはTransformerをベースとして80億のパラメタで事前学習したものです。
つまり、原理的にはやっていることはChatGPT同様、動画をトークン単位でベクトル化（数値変換）し、次に来るトークンを数学的に予測します。その取り扱う情報の次元が異なるだけです。

このように、テキストだけでなくマルチモーダルの分野でもTransformerがデファクト化しつつあるのかもしれません。

説明サイトの後半では、人間との協働の仕方に言及しています。

さながら人と人との対話のようにロボットと対話して指示できます。

今後はスケールアップ（まだ取り扱えるコンテキストや解像度が低い）と従来言語（まだPython,C＋＋ベースも多い）の置き換えを目指して進化させていくようです。

もはやテキスト対話は人間が主観的に評価することさえ難しくなってきていますが、ついにAIが物理世界とのインターフェースにも飛躍的な革命を起こす日がやってきました。

実は上記のRFM1の説明サイトでは「言語モデル」でなく「世界モデル」との表記もあります。

確かにそのほうがしっくりきます。「（大規模）言語モデル」が死語になる日はおもったより早いかもしれません。

この記事が気に入ったらサポートをしてみませんか？