面白そうな機械学習プロジェクト・ライブラリ


随時更新

最終更新20223/07/17



Midjorney


Stable Diffusion

Stable Diffusionはテキストを画像に変換するモデル

https://qiita.com/omiita/items/ecf8d60466c50ae8295b


Stable Diffusionは、おおきく以下の3つで構成されるよ
拡散モデルU-Net
VAE
Text EncoderTransformer
Stable Diffusionは、VAEの潜在空間に対して拡散モデルを学習させることで、効率よく高解像度の画像生成ができるよ
Text EncoderはCLIPで学習されているよ

テキストによる条件付けは、U-Net内のCross-Attentionでおこなっているよ

https://qiita.com/omiita/items/ecf8d60466c50ae8295b



Stable diffusion webUI



ComfyUI

ComfyUIはノードベースのUIが特徴のStable Diffusion用ツールです。ノードベースというのは言葉で説明するのは難しいのですが、簡単に言えば処理のカタマリを示す「ノード」同士を繋げることで視覚的に処理の流れを作る

という感じです。百聞は一見に如かず、実際の画面をご覧ください

https://kurokumasoft.com/2023/03/14/stable-diffusion-comfyui/





ControlNet

 そこで「ControlNet(コントールネット)」という拡張機能をインストールすることによって、参考写真と同様のポーズをとらせることが可能になります。また、「3Dモデル」「デッサン用の人形」「棒人間」などと同様のポーズをとらせることもできるようになります。
 このページでは「Stable Diffusion web UI」に「ControlNet」をインストールする手順とその使い方について画像付きで紹介しています。項目名は日本語と英語を併記しています。モデルは「anything-v4.0」を利用しています。

https://koneko3.com/how-to-use-controlnet/



Realistic Vision V2.0



AI Render




Stable-Dreamfusion





Music LM

text2muscらしい。
Googleが登録制で現在waitlistに入れてもらえれば遊べるらしい。



ChatGPT



Detic


Detic(デティック / Detector with Image Classes)とは、Facebook Resarchにて開発され、2022年に論文発表された物体検出技術で、2万クラスを検出することができるインスタンスセグメンテーションです。

Deticでは、物体検出器を画像分類用のデータセットで学習することで、検出クラスの拡張が可能となっています。

さらにDeticでは、CLIPを使用することにより一度も学習していないクラスの画像を検出することも出来ます。


https://aiacademy.jp/media/?p=2454


Detic + ChatGPT




RVC




RVC web UI


RVC JP



bark-with-voice-clone

音声を複製できるらしい




ChatdollKit


これはエンジニアのみなさんに耳寄り情報なのですが、ChatdollKitを使えばおしゃべりAIみたいなアプリはすぐに作れます

https://twitter.com/uezochan/status/1646001014494072834?s=20


3D virtual assistant SDK that enables you to make your 3D model into a voice-enabled chatbot. 🇯🇵日本語のREADMEはこちら
🇬🇧 Live demo English Say "Hello" to start conversation. This demo just returns what you say (echo).
🇯🇵 Live demo in Japanese「こんにちは」と話しかけると会話がスタートします。会話がスタートしたら、雑談に加えて「東京の天気は?」などと聞くと天気予報を教えてくれます。

https://github.com/uezo/ChatdollKit



KAEDIM3D

画像から3Dモデルを生成する。

Stop losing hours to modeling tools. Generate stunning 3D art with nothing more than an image.

https://www.kaedim3d.com/



Github Copilot




RobustVideoMatting(RVM)


いわゆる人物切り抜きのネットワークモデルです。
RobustVideoMatting(RVM) はそのうちの一つですが、高品質かつ高速に動作するということで注目されています。

https://qiita.com/CitronSeason/items/f763702f827b6ae83c19?utm_campaign=post_article&utm_medium=twitter&utm_source=twitter_share



Githubのプロジェクトページを見ると、このモデルのonnxが公開されているのでonnxruntimeを使用して、TouchDesigner上で動かしてみました!
このブログでは、全くゼロの状態からRVMを動かすまでを説明します。
だれでも簡単に導入できるっぽいから遊ぼうぜ!という意図で作りました。

https://qiita.com/CitronSeason/items/f763702f827b6ae83c19?utm_campaign=post_article&utm_medium=twitter&utm_source=twitter_share


Runway




Novel AI




Drag Your GAN

GANで生成されたものをライオンの口を開けるみたいな感じで、GUIで操作できるらしい


OpenCALM


CyberAgent による日本語言語モデル
7b: https://huggingface.co/cyberagent/open-calm-7b
3b: https://huggingface.co/cyberagent/open-calm-3b
1b: https://huggingface.co/cyberagent/open-calm-1b
large: https://huggingface.co/cyberagent/open-calm-large
medium: https://huggingface.co/cyberagent/open-calm-medium
small: https://huggingface.co/cyberagent/open-calm-small

https://colab.research.google.com/gist/p1atdev/294325167bd300f309fa1ff1a4fe5881/opencalm.ipynb



Omniverse Audio2Face

Audio2Face

Instantly create expressive facial animation from just an audio source using generative AI.

https://www.nvidia.com/en-us/omniverse/apps/audio2face/

faster-whsper

文字起こし

ManimML

deep learningがどういう処理が行われているか、guiで表示してくれる

https://www.itmedia.co.jp/news/spv/2307/12/news061.html

この記事が気に入ったらサポートをしてみませんか?