見出し画像

2024年、生成AIコトハジメ 〜生成AI元年を振り返る〜

2024年、明けましておめでとうございます。
生成AIスタートアップAlgomaticを時代を代表する企業にするべく働いてる大田です。
本年もどうぞよろしくお願いいたします!
2023年開始時には生成AIについて何も知らなかったのに、1年でどっぷりはまり込んで、更には転職までして、そして未だに毎日wowなニュースに出会えて僥倖な日々です。

DALLE-3作: 僥倖な日々(カ◯ジがちらつく・・)

最近はLLMネイティブな体験設計に試行錯誤しておりまして・・・。
THE GUILDの深津さんはイベントでトイレ行くたびにトイレットペーパーが満載になっているような体験とおっしゃってました。それは一つの解と思いつつ、ユーザー目線ではまだそれは怖いパターンがあったり、そもそも全てをいきなり整えるのは難しいのでどこから始めるべきかなどなど・・

“「一番大きく個人的に思うことは、いろんなことが始まる前に終わるということです。」 「例えば、朝起きたら枕元の前に必要なものが全部置いてあるとか、トイレ行くたびにトイレットペーパーが満載になっているとか、あるいはトラブルが起きる前に誰かが救済しておいてもらえるとか。」 「そんな風に、日常のあらゆる問題が発生して認知されるたびに、勝手に解決しているので、そもそも体験が発生しないんじゃないかと。」”

https://note.com/algomatic_oa/n/n54cfe796c5c7 より

この話も自分の中で一定解が出たタイミングでnote化できればと思っているのですが、年内にはまとまらなかったのでまた春くらいに書ければと思います。

さて、本題なのですが、年末とあるきっかけで生成AIキャッチアップしたい人にAlgomaticメンバーイチオシのサービスや記事を紹介しようとなり、社内で募集した結果てとつもない量のコンテンツが集まりました。

投稿後あっという間に71件の返信が発生する熱量

また、日頃からrandomチャンネルで毎日のように新しいニュースのシェアとそれに対するリアクションが活発に交わされています。
この2つを整理して生成AIキャッチアップしたい向けのコンテンツを社内で作成したので、一部をnoteという形でも公開したいと思います。

※ もちろん全てを網羅できているわけではないですし、他にも面白いサービスはたくさん出ているはずです。自分で調べるのが一番です。
※ 生成AI初心者向けなのでわかりやすさ重視で一部厳密には正しくない表現をしている箇所があります。
技術的なことよりも活用した事例やサービスにフォーカスしています。

今後は定期的に更新していければと思っておりまして、そのときにまたnote化できればと思っています(月一くらいを予定しています)
では、早速行ってみましょう!


これだけは見ておいて厳選5つ!

結構な分量になってしまったので、厳選した5つをまずご紹介します。
※無料で簡単に試せてwowが大きいという観点で選んでいます。

こういった事例に対する共有や考察が日々当たり前に行われているAlgomatic。
この記事でカバーできていないところも含めて少しでも興味ある方はカジュアルにお話ししましょう!
カジュアル面談はこちらから


2023年BigTech等のカンファレンス動画等

今年は様々なBigTechが生成AIへの取り組みを発表しました。
製品化されているものもデモ止まりなものもありますが、名だたる企業がイメージする生成AIの可能性を是非とも感じてください。

マルチモーダルLLM(テキスト以外のinputが可能なLLM)

マルチモーダルLLMとはテキスト以外(主に画像)の入力が可能なLLMです。
「ここには何が写っていますか?」といった質問と画像をセットで入力するとちゃんとした答えが返ってくるようなイメージです。

https://ja.stability.ai/blog/japanese-stable-vlm

様々発表されていますが、OpenAI社のGPT-4Vがアプリケーション(ChatGPT)の浸透度合いも踏まえて一番のインパクト。
一方でGoogleやApple、Stability AI等もモデルを公開しており、今後様々なアプリケーションへの搭載が見込まれます。

テキスト生成LLM

言わずもがなですがGPTシリーズやClaude(クロードと読みます)、Google Geminiなど生成AIブームの火付け役。
パラメータ数増加による性能改善はピークを迎え、巨大モデルにおいては入力可能なトークン数(文字数)の増加や速度向上がメインストリームとなりつつある気がします。
また、小型なモデルをローカルPCで動かす等の取り組みも研究されています。


日本語特化LLM開発(テキスト生成)

上記の巨大なLLMはグローバル展開なので自ずと学習データも英語の割合が大きいです。ゆえに英語での応答性能に比べると日本語での応答性能は劣りがちです。
日本語特化のLLMの開発は日本の企業がこぞって取り組んでおり、日々新しいものがリリースされています。

画像生成LLM

画像生成においては、OpenAIの他にStable DiffusionとMidjourneyが有名です。よく言われるのはStable Diffutionは画像生成のAndroidでMidjourneyがApple。Stable Diffutionの方がカスタマイズが柔軟で、Midjourneyは使いやすく高品質ということを指しています。

Stable Diffusion(Stability AI)

Midjourney

https://www.midjourney.com/home?callbackUrl=/explore

その他

動画生成LLM

生成AIブーム以前から話題になっていたdeepfakeの技術進歩、文章から動画を生成する技術に加えて最近では動きのモーションから動画を作成する技術に関する発表が多いです。Tiktok動画をAIで作成できるようになる日も遠くないかも?
Algomaticでも2023年の忘年会ではdeepfakeを使ったコンテンツで盛り上がりました笑

https://twitter.com/venturetwins/status/1741147864498397328

音声・音楽生成LLM

一番話題になったのはSunoではないでしょうか?
ワンピースの尾田先生が使ったりして話題になっていました。
Algomatic社でも社歌(非公式)を作ってみたりと手軽にそれっぽいものが生成できるのは面白いです。

コード・デザイン生成

Github Copilotを皮切りに、コード生成、デザイン生成も盛り上がりました。
中でもCursorはエンジニアからすると革命的な体験でAlgomaticでも愛用者が多いです。

AGI(Artificial General Intelligence): 汎用人工知能

AGI(汎用人工知能)は、人間が持つ広範な知識やスキルを模倣し、新しい問題を解決する能力を持つAIのことを指します。これは従来のAIやASIとは異なり、特定のタスクに特化したものではなく、様々な種類のタスクを学習し、適応する能力を持っています。これにより、AGIは人間が未知の問題を解決するのと同じように、新たな問題に対応することが可能となります。

https://www.softbank.jp/biz/blog/business/articles/202310/what-is-agi/

2024年、大注目の領域です。
これまでは人が聞いたものに対してAIが答える一問一答の体験が主流でしたが、AIが自分で考えて、様々なタスクを複合的に処理していくような技術のことをAGIと呼びます。Y CombinatorのW24バッチにもAI Agent領域のサービスが多くみられます。

https://twitter.com/omooretweets/status/1740774601876177375

業界特化事例・サービス

業界特化の事例やサービスももちろん増えてきています。
全ての業界について網羅できるわけではないですが、面白そうな業界特化の事例やサービスをピックアップしてご紹介します。

ゲーム

医療・ヘルスケア

被験者が事前に見たヒョウの画像(左)、生成AIを用いた新手法で、メンタルイメージを復元した画像(中)、従来手法による復元画像(右)

エンタメ

その他

より深くキャッチアップするなら

ここまで読んでくださって、生成AIの入り口の扉を開けたそこのあなた。
より深くキャッチアップするときの一助となればと思い、普段弊社メンバーがチェックしているものの一部をシェアします。

あとはひたすらXを見るのが早いかなと思います。
以下のメンツのポストと昨年12月〜くらいの過去ポスト遡れば、ほぼほぼキャッチアップできると思います。

Algomaticメンバーも生成AI関連のポストをすることが多いのでぜひご覧ください(ただの宣伝


生成AI時代を代表する会社を一緒に作りませんか

最後に会社の宣伝になるのですが、2023年4月の創業から、まだまだ僕らは、創業期です。共に生成AI時代を代表する会社を創る「創業メンバー」を募集しています。
どんな会社をなぜ作ろうとしているかは以下のnoteをご覧ください。

興味を持っていただいた方、まずは気軽に、お話しさせてください!

この記事が気に入ったらサポートをしてみませんか?