見出し画像

【生成AIニュースまとめ】 3/17〜3/23|3D生成AI『Stable Video 3D』発表。 動画から3Dモデル生成

5分で先週の生成AIを振り返られる、要約ニュースです。
2024年 3/17〜3/23のトレンド生成AIニュース総まとめ!


1. 3D生成AI『Stable Video 3D』発表。 動画から3Dモデルを生成

Stability AIが、画像からマルチビュー推定と3Dメッシュ生成を行う「Stable Video 3D」(SV3D)を発表しました。SV3DはStable Video Diffusion(SVD)を基に開発され、画像とカメラ位置から被写体の複数の角度を推定し、3Dデータを生成します。非商用利用は無償、商用利用にはMemberships加入が必要です。現在公開されているのはマルチビュー推定部分のみで、SV3D_uとSV3D_pの2種類のモデルが存在します。メッシュ生成に関する詳細はまだ公開されていませんが、技術文書ではNeRFやDMTet技術を用いた高品質な3D表現の生成が示されています 。
https://www.techno-edge.net/article/2024/03/20/3009.html

2. "Google Research"、1枚の人物画像からその人物が話す動画を生成するAI『VLOGGER』発表

Google Researchは「VLOGGER」というAIシステムを公開し、単一の人物画像から、音声駆動による動画生成を可能にした。このシステムは、テキストから画像へのモデル強化と拡散ベースのアーキテクチャを用い、口元、顔の表情、手のジェスチャーなど、リアルな反応を生み出す。新データセット「MENTOR」でトレーニングされ、教育やプレゼンテーション、ナレーションといった多様な用途に対応する。VLOGGERの開発は、「身体化された会話エージェント」への重要な一歩であり、リアルタイムでのインタラクティブな通信を実現する可能性を秘めている。
https://www.itmedia.co.jp/news/articles/2403/19/news138.html

3. 「Copilot Pro」、無料で1カ月間の試用が可能に--モバイルアプリで

MicrosoftはCopilot Proのアップデートを発表しました。このアップデートにより、Copilot Proを1カ月無料で試用できるようになり、Microsoft 365の無料版ウェブアプリでCopilotを利用可能になります。加えて、加入者はカスタム版「Copilot GPT」を作成できるようになります。これにより、MicrosoftはAIアシスタント市場での競争力を高め、ユーザー体験を向上させることを目指しています。無料試用と新機能の提供により、Copilot Proの魅力がさらに増します。
https://japan.cnet.com/article/35216621/

4. 「YouTube」、リアルなAI生成動画へのラベル付けを義務化

YouTubeは、生成AIを利用して改変または合成された動画への情報開示を義勉付ける新方針を発表した。動画説明欄や動画プレーヤー上にラベルが表示され、実在の人物が発言や行動していないことを示したり、実際の出来事や場所を改変したり、現実には存在しない場面を生成したりする動画が対象となる。ただし、幻想的なシーンや特殊効果を用いた非現実的なコンテンツには開示義務はない。YouTubeは繰り返し方針に違反するクリエイターへの措置を検討し、コンテンツが混乱や誤解を招く可能性がある場合、自らラベルを追加する場合もある。
https://japan.cnet.com/article/35216668/

5. AI作曲サービス「Suno」、無料ユーザーにも高品質版V3を開放。1日20曲、1曲2分が生成可能

米国のAIスタートアップ、Sunoは、AI作曲サービス「Suno」をV3にバージョンアップし、曲の長さを最大2分まで伸ばし、インストゥルメンタル曲指定、高音質化、多ジャンルへの対応など、多くの機能強化を行った。このアップデートにより、無料ユーザーも1日に最大20曲まで生成可能になる。V3は1曲の長さの拡張、作曲までの時間短縮、対応する音楽カテゴリーと言語の多様化などを特長とし、高音質化も実現している。また、V4の開発も進行中であり、生成された楽曲には不可聴のウォーターマークを挿入することで、著作権侵害などの海賊行為への対策も施されている。これらの機能強化により、Sunoは音楽制作の可能性をさらに広げ、ユーザーに多様な体験を提供する。
https://www.techno-edge.net/article/2024/03/22/3020.html

6. "Qualcomm"、チャットAIや画像生成AIをスマホ上で動かせる高性能かつ安価な『Snapdragon 8s Gen 3」を発表

Qualcommは、SoC「Snapdragon 8s Gen 3」を発表し、これによりスマートフォンで画像生成AIやチャットAIをローカルで動作させることが可能になる。Snapdragon 8s Gen 3は、30種以上の大規模言語モデルを実行でき、4nmプロセスで製造される。Snapdragon 8 Gen 3の廉価版であり、CPUとモデム性能は若干低いが、AIモデルのローカル実行能力は共通している。Honor、iQOO、realme、Redmi、Xiaomiなどのメーカーが、このチップを搭載したスマートフォンを2024年3月に発表する予定だ。
https://gigazine.net/news/20240319-qualcomm-snapdragon-8s-gen-3/

7. 『YouTube Music AIインキュベーター』が日本でも開始。初音ミクのクリプトンと協力

YouTubeは、日本で「YouTube Music AI インキュベーター」を発表し、音楽分野でのAI活用に関するフィードバックを求めている。このイニシアチブはグローバルで開始され、クリプトン・フューチャー・メディアやユニバーサル ミュージック グループが参加。Google DeepMindの「Lyria」を初めて体験できるプラットフォームを提供し、アーティストは自らの音楽創作にAIをどう組み込むか探求できる。この取り組みは、AIによる音楽創造の進化を促し、クリエイターの権利と収益を守る方向性を模索する。
https://www.techno-edge.net/article/2024/03/21/3017.html

8. "Turing"と"S.RIDE"、自動運転AIの学習用データをタクシーで収集--公道走行データの販売も

TuringとS.RIDEは、大和自動車交通のタクシーを利用し自動運転技術の開発用公道走行データを収集した。この取り組みは「モビリティデータサービス」として事業化され、自動運転AIの学習支援に提供される。S.RIDEによるこのサービスは4月から開始し、自動運転技術開発事業者に対してタクシー走行データを提供する。Turingが開発した収集デバイスを使用し、多様な環境下でのデータが効率的に収集され、自動運転AIモデル開発に役立てられる。このサービスにより、事業者は多様なデータを基にAIモデルの精度向上を図れる。
https://japan.cnet.com/article/35216816/

9. イーロン・マスクのチャットAI「Grok」がついにオープンソース化、他のオープンソースモデルより格段に優れているとの指摘も

イーロン・マスク氏が設立したAI企業xAIは、ウィットに富んだ返答をするチャットAI「Grok」をオープンソース化し、公開した。この公開により、ユーザーはGrokのモデルを自由に最適化できるようになる。Grokは「銀河ヒッチハイク・ガイド」にちなんで名付けられ、Xの有料会員は既にアクセス可能だった。オープンソース化はApacheライセンス2.0のもとで行われ、商用利用や改変、配布が可能となっている。Grokのパラメーター数は3140億で、他のオープンソースモデルと比較して高性能である。マスク氏はこの動きを通じて、AI技術が特定の大企業に支配されるべきではないという考えを示している。
https://gigazine.net/news/20240318-xai-grok-open-source/

10. アップルの"DarwinAI"買収は、AIを強化した「iPhone」の登場を示唆するのか

Appleが人工知能関連の新興企業DarwinAIを買収したことは、同社のAI戦略に関する重要な洞察を提供する。カナダのDarwinAIは、AIシステムの効率化と小型化に特化しており、これによりAppleはオンデバイスでAIモデルを実行する計画を強化する可能性がある。AIをデバイス上で直接実行するアプローチは、プライバシー保護とインターネット接続の不要性を意味し、Appleのプライバシー保護の方針と一致する。この買収により、AppleのAI機能はより効率的かつ小型のAIモデルの開発によって向上する可能性がある。
https://japan.cnet.com/article/35216619/

11. 楽天グループが大規模言語モデルを公開。 Mistralベースの70億パラメータ、商用利用も可能。

楽天グループは、日本語特化の大規模言語モデル「Rakuten AI 7B」を公開した。これはフランスのMistral AIの「Mistral-7B-v0.1」を基に、70億パラメータで開発された。Apache 2.0ライセンスの下でHugging Faceからダウンロード可能で、商用利用にも対応している。また、インストラクションチューニング済みの「Rakuten AI 7B Instruct」とチャットモデル「Rakuten AI 7B Chat」も公開。これらは日本語と英語のデータで繰り返し事前学習され、日本語の形態素解析器を用いたテキスト処理の効率化が特徴である。
https://www.itmedia.co.jp/news/articles/2403/21/news155.html

12. Apple、複数のAIベンチマークで最先端のパフォーマンスを実現できる『マルチモーダルAIの構築手法』を発表

Appleの研究チームがマルチモーダル大規模言語モデル(MLLM)「MM1」を発表した。MM1はテキストと画像を統合し、多様なトレーニングデータとモデルアーキテクチャを使用して高性能を達成している。これにより、画像キャプションや視覚的質問応答などのタスクで最先端の結果を実現し、画像エンコーダーと画像の解像度がモデルのパフォーマンスに大きく影響することが判明した。AppleはAI投資を強化し、「Ajax」と「Apple GPT」を含むAI開発を進めており、これらをSiriや他のAppleサービスと統合することを目指している。
https://gigazine.net/news/20240318-apple-researchers-breakthroughs-multimodal-ai/

13. 生成AIの弱点が相次ぎ発覚、ChatGPTやGeminiがサイバー攻撃の標的に。情報流出や不正操作の恐れも

生成AIのセキュリティ脆弱性が注目されている。イスラエルの研究チームは、ユーザーとAI間のデータを傍受し、AIの回答を復元する攻撃に成功した。この攻撃は、AIがトークンを連続して送信するプロセスの脆弱性を利用している。また、GoogleのGeminiにも、システムプロンプトを悪用する脆弱性が発見された。これにより、秘密情報の流出や偽情報の生成が可能になる可能性がある。これらの脆弱性は、主要な生成AIに共通する問題であり、生成AIエコシステム全体のセキュリティリスクも指摘されている。
https://www.itmedia.co.jp/news/articles/2403/22/news069.html


▼X(twitter)のポストまとめ

以上、先週の振り返りニュースでした。
毎週配信しています✨ ↓

XではリアルタイムでAIに関する情報を発信しています☺︎📝✨
👉https://twitter.com/kurayu_yuki

この記事が参加している募集

今月の振り返り

この記事が気に入ったらサポートをしてみませんか?