【4/22-4/28】生成AI活用事例/研究開発-Weeklyまとめ
今週のAIに関する活用事例や研究開発情報をまとめた記事です。
活用事例
・Midjourneyでキャラ作り
・いつもお世話になってるPDFChatのHumataが一度に複数のドキュメントを調査できるように
・生成AIを使ったノーコード・モバイルアプリテストソリューション「SofySense」がローンチ AI チャットボット「Sofybot」が、特定のテストクエリに対して迅速かつ正確な応答を提供。 製品のリリース時間を95%短縮するとのこと。
・ChatGPTを活用した自治体IT調達仕様書の自動作成サービスを開始|川口弘行合同会社のプレスリリース
・@AI_DevAO さんによる、ChatGPT上で遊べる戦国シミュレーションゲーム
・ Gen2で生成された動画
・これもGen2
・@forever_voiceにおけるAIセラピストのサーシャ
リアルな双方向音声を使い、はCBT(認知行動療法)、DBT(弁証法的行動療法)、マインドフルネス瞑想を専門としユーザーとやり取り
・ 『ロゴデザインの方向性を作り上げる方法やプロンプト』
・ChatGPTで財務分析も可能に、請求書受領サービス「ジュリオ」
ジュリオは、紙、メール、ウェブダウンロード版等、請求書をオペレーターがPDF化してアップロードし、データ化するサービス。溜めたデータを解析分析する為に「財務GPT」というプロダクトも同時に開発。
・Stable Diffusion開発元が3Dアニメーション生成AI「Stability For Blender」を発表
「Blenderで作成したラフ画像を元に好みの画像を生成」「テクスチャのラフ画像からリアルなテクスチャ生成」「アニメーションを生成」など
・AI TikToker
・全員AI。人間禁止のAIボット専用SNS
・RunwayのiOSアプリが発表
Gen-1(動画のスタイル変換)をスマホから利用可能に
・ギブリー、ChatGPTを行政機関内で活用できるプラットフォーム「行政GPT」をリリース
-専用環境で「ChatGPT」を利用可能
-会話データはモデルのトレーニングに使用ない
-個人情報や機密情報の入力を抑止する機能を標準提供
・言語モデルxサイバーセキュリティ
Googleは、サイバーセキュリティ向けに設計された言語モデル Sec-PaLMを搭載したGoogle Cloud Security AI Workbenchを発表
独自の脅威情報データをMandiantの情報とともに処理し、悪意のある活動の特定と抑制、および対応措置の調整をする
・自然言語で動画検索
例:「白いシャツを着て踊っている女性」
・一般的な電話対応に対して3倍の生産性を実現へ
トランスコスモスが、デジタルフロントをすべてカバーするTCI-DXサービスにおいて、ChatGPT活用を公表
問い合わせに対してChatGPTが自動応答するだけでなく、困難な問い合わせに対してシームレスに有人対応への切り替えが実現
・プロダクトハント情報に対してチャット検索できるphai(非公式)
・NVIDIAが、テキスト生成AIモデルをより安全にするNeMo Guardrailsをリリース
NeMo Guardrailsは、多くの生成言語モデルで動作し、外部の「安全でない」ソースへの接続、不正確な情報、有害な言語に対して制限を設けることができる
・特定ドメインのAIエージェントを構築可能にするプラットフォームを提供するMindverse
Alibabaとa16zが支援するファッションスタートアップCiderで試験運用中。
1000万ドルの調達も予定している。
動画: EC向け仮想アシスタント
・ChatGPTのチャット履歴と学習を無効にできる機能を追加。
ただし、不正行為を監視するために必要な場合には確認される。
また、ChatGPT Businessを数ヶ月以内に提供する予定。
専門家や企業向けにデータをより詳細に管理するためのもので、データは学習に使われない。
・TikTokが生成AIアバターをローンチ
・Bloombergによると、アップルが有料のAIヘルスコーチを構築中
コードネーム「Quartz」と呼ばれ、AIとApple Watchのデータを使って、特定のユーザーに合わせた提案やコーチングプログラムを作成し、運動、睡眠、食習慣の改善を支援
来年に登場する予定。
・SpotifyとAI音楽
-昨年追加された2千万曲の内、多くが人間の手によるものではない
-Spotifyは、リアーナやドレイクを模したAI楽曲を、彼らの許可なく削除
しなければならない事態に陥っている
-レコード会社は、自分たちの音楽がAIモデルの訓練に使われるのを
防ぐよう要求
・ 「STUDIO AI」がProduct Huntでリリース
・Appleのエンジニア
ChatGPTのようなチャットボットを同社の音声アシスタントSiriに組み込むことを提案
・Microsoft DesignerがEdgeに統合
AIが生成したソーシャルコンテンツが利用できるように
このプラットフォームは、まもなくEdgeウェブブラウザから直接アクセスできるように
・デロイト、物流・小売業の接客にQuartzのAIソリューションを提供
Quartz AIは、NvidiaのAI EnterpriseおよびOmniverseプラットフォーム上に構築され、物流やルート最適化のためのCompass AI、小売店やクイックサービスレストラン、顧客サービスのためのFrontline AIが含まれる
・Topaz Video AI
・ Gen2でテキストだけでエフェクト動画生成
・中国テック大手、より低価格なAI製品の提供を目指す
-Baiduは、ERNIE Botの推論効率を10倍向上、推論コストを1/10に
抑えたと発表
-他にも、高品質なビジネスデータを使用した業界固有モデルの
学習などを計画
-TencentやAlibabaも低価格のAI製品にするための効率化に取り組む
・アイアクトのCogmo Search、ChatGPTと連携 セキュアなナレッジマネジメントが可能に
-Cogmo SearchとChatGPTを連携しAI検索機能を強化
-入力がChatGPTの学習に使われず、情報が外に漏洩しない
-AI検索結果一覧を提示し、間違った情報取得を避けることが可能
・runwayml
研究開発
・MS Azure OpenAIのDevelopers Seminarのスライド
・ LangChainの新機能Contextual Compression Retrieverを試す|mah_lab / 西見 公宏 @mah_lab #note
・AutoGPTなど、BabyAGIのコンセプトにインスパイアされた、または基に作られたプロジェクト集
・Vicuna
オープンソースLLMで日本語でコンテキストを元に質問応答できるモデル
・BabyAGIが更新
BabyAGI classic (OG)がv0.10ブランチとして利用可能に
Llama.ccpの統合により、Llama、Alpaca、GPT4allを実行できるように
などなど
・MPT-1b-RedPajama-200b-dolly
RedPajamaデータで事前学習され、Dollyデータでチューニングされた1.3Bのデコーダのみトランスフォーマー
Llamaシリーズのモデルで使われたのと同じ割合でRedPajamaデータセットから200Bトークンを事前学習
・3DCoMPaT++
10.000のユニークなモデルからなる大規模なデータセットで、1モデルあたり1000のスタイルが生成され、アノテーションもあるよ、と
Doc: https://t.co/2HM3e1qayV
Github:https://t.co/z1RpojPwpY
・ RWKVマルチ言語トークナイザー
・Inpaint Anythingの新機能
3Dシーンからあらゆる3Dオブジェクトを除去することができる「Remove Anything 3D」
github: https://t.co/k9RfD7w85y
hf: https://t.co/dAweTp79Jb https://t.co/CBamWZql8i
・RMTでTransformerを1Mトークン以上に拡張
リカレントメモリトランスフォーマーというアーキテクチャを活用することで、モデルの有効文脈長を200万トークンまで増やすことに成功。
・Ask-Anything、ChatGPT、miniGPT4、StableLMを使用した
ビデオチャット用ツール
github: https://t.co/Q1qPoHUU60
デモ: http://106.14.223.212:7860/ https://t.co/096WHyCgbR
・GPT4Tools: LLMにセルフインストラクションでツール活用を教える
ローカルマシンで動く、Vicuna-13Bで初めて、self -instruct tuningによるビジュアルモデルの利用を可能に
・Relate Anything Model
画像を入力とし、SAMを利用して画像内の対応するマスクを特定。その後、任意のオブジェクトのマスク間の関係を分析することが可能
github: https://t.co/J2p2vCm5RY
デモ: https://t.co/9dwrbf4gMA
・LLM の fine-tuning において、出力層 + 最後の数層だけを finetune することで、全ての層に行うのとほぼ同等の結果が得られる。
・Vicunaを作ってるとこがチャットボットアリーナを開催してる
2つの匿名モデルを並べてチャットし、どちらが優れているかの投票が集計されていく
VicunaやStableLM、Alpaca, LLaMaとかがいる
・Track Anything: 動画のあらゆるものをセグメント化
Segment Anythingをベースに、トラッキングしたいものを指定し、ユーザーのクリック操作のみでセグメンテーションを行うことが可能
github: https://t.co/eoN4Jn5BEF
論文: https://t.co/sfh9o6dAv1 https://t.co/zgxAtUX6KP
・LLMの仕事での活用
-実験:5,179人のカスタマーサポートにLLMを時期をずらし導入
-生産性(1時間あたりの問題解決数)が平均14%向上
-低スキルの労働者に最も大きな影響
-高スキル労働者には最小限の影響
-顧客感情を改善し、経営介入の要請を減らし、従業員の定着率を向上
・ OpenAIのブランドガイドライン
・GUI認識込みのアプリ版Adept?
文章入力でスマホアプリ操作を自動化する「DroidBot-GPT」
「ここをクリックすればカメラに切り替わる」など、アプリ上のGUIをテキストに落とし込む
1. 「ここをクリックすればカメラに切り替わる」など、アプリ上のGUIをテキストに落とし込む
2. 画面上の情報や行動履歴、タスクを組み合わせてプロンプトを作成し、ChatGPTに送信
3. ChatGPTは適切なアクションを生成して送り返し、システムはスマートフォン上で操作を実行 例えば、「番号1234567とメールアドレスalice@github.comをAliceという名前で連絡帳に登録」といったプロンプトを入力すると、アプリを自動操作可能
・NeRF を使用してあらゆるものを 3D でセグメント化Segment Anything Model (SAM)の3D適用研究
github: まだ
論文: https://t.co/EX3nwxsQJQ
プロジェクト: https://t.co/sizOxZtNdL https://t.co/DUQ0kWJzPr
・Google等より、GPU を考慮した最適化による大規模拡散モデルのオンデバイスアクセラレーション
GPU 搭載モバイルデバイスで、20 回の反復で 512 × 512 画像の INT8 量子化なしの Stable Diffusion 1.4 で 12 秒未満を達成
mediapipeとかtensorflowに実装されたりするんかな
・Baby-AGIの日本語解説
・HuggingChatがリリース
Open Assistantの最新モデル(現在最高のオープンソースチャットモデル)oasst-sft-6-llama-30bを利用(リクエスト集中してて動かない)
・百花繚乱の大規模言語モデル その現状まとめ【2023年4月末版】
・@mah_lab さんによるnoteで紹介されてる大規模言語モデル間の性能比較シートのボリュームがすごい
note: https://t.co/fN1vfsdj84
シート: https://t.co/ZQx19GsIOW https://t.co/8xSW2wbieg
・MetaのSegment Anything Model
数行のコードでセグメンテーションマスクを生成できるように
・Hugging Face Unity API に、フォールバックエンドポイント、
モデル待機、および最大タイムアウト設定が追加
・ 大規模言語モデルを自社でトレーニング & 活用する方法
・Stability AIのImage Upscaling APIが公開
BlenderやPhotoshopのプラグイン、DreamStudioを利用してアップスケーリングが可能
・RVC公式版に大きな更新
・推論コストを110倍削減し、各ドキュメントに対して直接推論を実行するよりも品質を改善できる戦略を提案
・ Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
・今日、Stable Diffusion v2(SDv2)をゼロから学習するコストが5万ドル(約670万円)よりも低くなったと報告
・命令調整言語モデルと潜在拡散モデルを使用したテキストオーディオ生成
・人間の音声、動物の音、効果音、音楽などを生成
・63 分の 1 の小さいデータでsotaと同等
-小さなデータセットのみで学習のため、細かい制御は難しい可能性
-非商用
プロジェクト: https://t.co/7IvnwgtPrA https://t.co/U8wuZZfNXX
・LaMini-LM:ChatGPTからのデータで学習された言語モデルコレクションの評価
-258万命令データセットで学習
-様々なモデルアーキテクチャ、サイズ、チェックポイントを、
様々なNLPベンチマークや人間による評価を通じて、広範囲に評価
github: https://t.co/FQIasrdAFy
論文: https://t.co/um9tp5iXwI https://t.co/ClSahkbe8u
・開始画像とストロークのセットからビデオを生成する条件付き拡散モデルであるMCDiff
プロジェクト: https://t.co/a70s3wEAnw
論文: https://t.co/blByccN8J8 https://t.co/t7AXU9Lv8v
・コンピュータリソースへの低コストでのアクセスがAI企業の成功のカギを握る。
・音楽を分析しダンスを生成するAI
・AI科学者「AI-Descartes」
・ MobileNeRFがiPhone13Proでリアルタイム表示78FPS
・langchaIn x メタデータ
・ GitHub Copilot の拡張機能をリバースエンジニアリング
この記事が気に入ったらサポートをしてみませんか?