最新AI研究&検証

本

最新AIの最前線に立つ技術、理論、応用を深掘りするマガジンです。検証結果や研究の記事をまとめています。

運営しているクリエイター: SUTO💡

任意の画像の色塗りをしたりクオリティをアップさせたりするControlNetのエクステンション「MistoLine」を試してみる

MistoLineはあらゆるタイプの線画入力に適応できるSDXL-ControlNetモデルで、手描きのスケッチやControlNetの様々な線画プリプロセッサ、モデル生成アウトラインなどの線画に基づいて、高品質の画像 (短辺が 1024 ピクセル以上) を生成できるとのこと。 (MistoLineは線画プリプロセッサごとに異なる ControlNet モデルを選択する必要もないとのことでした。) 今回はこのMistoLineを試してみたいと思います。 🌐プロジェクトページ

text2appの時代に突入。ノーコードでアプリが作れるAIツール「Create.XYZ」がとにかくすごい！

今回試してみたCreate.XYZはプログラミングの知識がなくても、AIを利用して簡単にWebサイトやアプリケーションを作成できるツールです！ユーザーが自然言語で入力した指示（プロンプト）を元に、AIが自動的にコードを生成し、Webサイトやアプリの構造やデザインを構築してくれるという超優れもの。下記からアクセス。UIもシンプルでわかりやすいです！まず登録が必要ですが、無料で結構遊べます。 Create.XYZの主な機能主な機能を4つにまとめました！プロンプト入

画像に照明効果を付与できるIC-LightをComfyUIで試してみる

ControlNetの開発者であるlllyasviel氏が画像に照明効果を付与できる「IC-Light」を作っていて、その性能のよさにXでも話題になったのでいじってみたいと思います！こちらもControlNet同様オープンソース。素晴らしい🥳 プロジェクトページ🌐プロジェクトページ類はこちら早速いじってみるデモのUIはこんな感じでした。ドレスを着たねこちゃんで試してみたのですが、とても良い感じに変換されました！話題になっているだけあって使い方や特性を公開してい

任意の画像に対する質問になんでも答えてくれるミニマムオープンソースAIツール「moondream」を試してみる

moondreamとはMoondream は任意の画像に対して現実世界の質問に答えることができるコンピュータービジョンモデル。オープンソースで配信されています。現在のモデル市場からすると非常に小さく、パラメーターは 16 億しかないとのこと。この小ささで、携帯電話などを含むさまざまなデバイス上でローカル実行できるようになっているのが売りみたいですね。プロジェクトページ類🌐プロジェクトページ類はこちら。試してみるmoondreamは超シンプルにアップロードした画像

テキストでサラッとUIコンポーネントを作ってくれる「OpenUI」をいじってみる

今回は「Open UI」というチャットベースでUIコンポーネント(画面上に表示するUIのパーツ)の構築ができるAIツールを試してみたいと思います。最近はtext to appもだいぶ流行っています。最近はCreate XYZも大人気ですね！ 🌐プロジェクトページはこちらということで早速ローカルで起動！無料にこだわる私は今回も無料のLLMを使いたく、Ollamaのllama3で設定しました。 Ollamaにllama3を入れた時の記事はこちらそれでは早速いじ

Ollamaと連携してDifyでRAGチャットボットを完全無料で作って遊ぶ

前回すごいすごいと話題になってたDifyがオープンソースだと知りなんとなくインストールしてみました。今回はそれの続きです！ RAGチャットボット制作にはchatGPTのAPIを使ってもよかったのですが、せっかくなのでここまで来たらLLMも無料のもので全部無料でやりたい欲がでてしまい少し調べるとOllamaとの連携でDifyができる記事見つかりそれでやってみることにしました。ありがたや～！ということで記事通りにやってみた結果がこちら！超かんたん😊すばらしい😊😊😊

OllamaでMeta社製のオープンLLM「Llama3」を試してみる

今回はこれまでで最も高性能なオープンに利用可能な LLMと名高いMeta Llama 3を試してみたいと思います。 🌐 Meta Llama 3の詳しい説明はこちら👇 Xでも話題です！ Claude 3 SonnetやGPT-3.5等と比較しても優れていると評価されているとか…！！ということで早速このLlama3をOllamaで試してみたいと思います。 Ollamaを導入済みであればLlama3のインストールはこのコードを入れるだけ。 ollama run lla

ちまたで人気のローコードLLM アプリ開発プラットフォーム「Dify」をWindowsのローカルで動かす

いま大人気のローコードなAIシステムの開発環境のLLMツール「Dify」。あまりに人気なもんだから流石に調べておかなきゃ〜と思ったらこれがまあすごい。オールインワンのワークスペースで視覚的に生成型AIアプリを作成、何百もの独自/オープンソース LLM とのシームレスな統合ができちゃうという異常なツールです。このDify、クラウドサービスだと200回分のGPT無料トライアルができるのでちょっといじってみたい！という人にも優しい設計。しかし通常はプロで59ドルします。

Ollamaを使ってMicrosoftの軽量オープンソースLLMの「phi-3」をローカルで試してみる

ちまたでGPT3.5より優秀かも？と話題になっているMicrosoft製のオープンソースLLMの「phi-3」。これはスマートフォンのローカルでも動かせるくらいの軽さということで話題になってたのでちょっといじってみたいと思います！ちなみにPhi-3は2024年4月リリースしたてで、Phi-3-mini（3.8GB）、Phi-3-small（70GB）、Phi-3-midium（140GB）があって、Phi-3-miniはシリーズ最小モデルでしたのでそれを試してみようと思い

仮想着せ替えができるAIの「IDM-VTON」で遊んでみる

今回は任意のモデルに仮想試着が手軽にできるIDM-VTONを試してみようと思います！プロジェクトページ類はこちら。デモのUIはこんな感じでした。それでは早速モデルと洋服を用意して試してみます。長袖でしたがちゃんと半袖の花柄Tシャツを着てくれました！柄もほぼ破綻してないです。すごい。つぎは柄シャツの男性にニットカーディガンをきせたいと思います。いいですね、次はこの美しい女性にめちゃダサセーターを着てもらいたいと思います。さて、これからはすこし難しく

元画像にマテリアルイメージ画像一枚で反映させるトレーニング不要のAI「ZeST」を試してみる

画像から画像へマテリアルを転送し、ゼロショットでトレーニング不要というAIの「ZeST」を今回は試してみたいと思います！ 🌐プロジェクトページ類は以下。それでは早速いじってみたいと思います！サンプルがあったので試しにそちらでテスト。インプットしたかぼちゃに対してマテリアルがしっかりと反映されていますね！オリジナルの画像でも試してみたいと思います。まずはマグカップと緑色の液体が入った瓶。赤いバッグと黄色い帽子。精度がめちゃ高いです！だいぶ思い通りにマ

最強のAIチャットボットを決めようとしている「Chatbot Arena」をみんなに触ってほしい（ユーザー登録不要）

Chatbot Arenaってご存知ですか？ Chatbot Arenaは大規模言語モデル（LLM）を人間の好みに基づいて評価するバトル形式のオープンプラットフォームです。ユーザーはざまざまなモデルと対話し、どちらのモデルがより良い応答をしたか投票することで、モデル間のランキングが形成されるというもの。これが触ってみると意外と差異があるものだな〜と感心したので記事にまとめました。 👇から試せます！ユーザー登録不要というのも嬉しい点。 https://chat.lmsy

任意のオブジェクトイメージをいろんな角度やシチュエーションで再生成できる「🌈CustomNet」を試してみる

画像のオブジェクトイメージを保持しながら、いろんなアングルや位置での背景をコントロールできることで話題になっている「CustomNet」。今回はこちらのモデルを試してみたいと思います。プロジェクトページ類はこちら。こちらがUIです。今回はこちらの三毛猫の招き猫の画像で試してみようとおもいます。いいですね〜これも雑コラが捗りそうです！！動画はこちらから。ボタンぽちぽちするだけであっという間にできちゃうのは便利ですね！使用感も良いです。こういうところ

新しく発表されていた2D-to-3Dの「InstantMesh」を試してみる

一枚の写真から3Dのメッシュモデル（立体的なネットワーク構造）を生成するためのフレームワーク「InstantMesh」がすごそうだったので試してみました。 3Dを作るフレームワークは他にもいくつかあって、過去にこんな感じで試しています。さて今回はどんな感じでしょうね？？プロジェクト類は以下から。普通、3Dモデルを作る時は複数の画像やデータを基にして詳細を加えていく必要がありますが、InstantMeshは一枚の画像から短時間（約10秒）でメッシュを生成することが