面白そうな機械学習プロジェクト・ライブラリ

2023年5月12日 03:36

随時更新

最終更新20223/07/17

Midjorney

Stable Diffusion

Stable Diffusionはテキストを画像に変換するモデル

https://qiita.com/omiita/items/ecf8d60466c50ae8295b

Stable Diffusionは、おおきく以下の3つで構成されるよ
拡散モデル（U-Net）
VAE
Text Encoder（Transformer）
Stable Diffusionは、VAEの潜在空間に対して拡散モデルを学習させることで、効率よく高解像度の画像生成ができるよ
Text EncoderはCLIPで学習されているよ

テキストによる条件付けは、U-Net内のCross-Attentionでおこなっているよ

https://qiita.com/omiita/items/ecf8d60466c50ae8295b

Stable diffusion webUI

ComfyUI

ComfyUIはノードベースのUIが特徴のStable Diffusion用ツールです。ノードベースというのは言葉で説明するのは難しいのですが、簡単に言えば処理のカタマリを示す「ノード」同士を繋げることで視覚的に処理の流れを作る

という感じです。百聞は一見に如かず、実際の画面をご覧ください

https://kurokumasoft.com/2023/03/14/stable-diffusion-comfyui/

ControlNet

　そこで「ControlNet（コントールネット）」という拡張機能をインストールすることによって、参考写真と同様のポーズをとらせることが可能になります。また、「３Dモデル」「デッサン用の人形」「棒人間」などと同様のポーズをとらせることもできるようになります。
　このページでは「Stable Diffusion web UI」に「ControlNet」をインストールする手順とその使い方について画像付きで紹介しています。項目名は日本語と英語を併記しています。モデルは「anything-v4.0」を利用しています。

https://koneko3.com/how-to-use-controlnet/

撮影の仕事はもうすぐAIで置き換わると思ってたけど、もう来てた (2)

・MagicPoserでポーズ作成
・ControlNetを使用
・Realistic Visionモデルを使用https://t.co/vAPqlsoIWd pic.twitter.com/7T3qELewRg
— やまかず (@Yamkaz) February 20, 2023

Realistic Vision V2.0

驚くほどリアルな画像を生成できる
「Realistic Vison 1.4」がリリースhttps://t.co/sUDZM5CSx8 https://t.co/kHEdH00CiW pic.twitter.com/bGpCfmYVMA
— やまかず (@Yamkaz) February 25, 2023

AI Render

🚀 Blenderで #stablediffusion を使用してレンダリングを行う無料のアドオン「AI Render」が公開。

ダウンロードはこちらからhttps://t.co/jssx1DJCeg pic.twitter.com/88kVpa3gDV
— やまかず (@Yamkaz) October 16, 2022

Stable-Dreamfusion

きた！
テキストから3Dを生成する「DreamFusion」がStable Diffusionで実装されました。https://t.co/lSpH4bq69b

公開されてから1週間で実装。速い。https://t.co/0NQZeXUU3p pic.twitter.com/WtnvffdLcN
— やまかず (@Yamkaz) October 6, 2022

Music LM

text2muscらしい。
Googleが登録制で現在waitlistに入れてもらえれば遊べるらしい。

ChatGPT

Detic

Detic（デティック / Detector with Image Classes）とは、Facebook Resarchにて開発され、2022年に論文発表された物体検出技術で、2万クラスを検出することができるインスタンスセグメンテーションです。

Deticでは、物体検出器を画像分類用のデータセットで学習することで、検出クラスの拡張が可能となっています。

さらにDeticでは、CLIPを使用することにより一度も学習していないクラスの画像を検出することも出来ます。

https://aiacademy.jp/media/?p=2454

Detic + ChatGPT

DeticとChatGPTで画像からテキストを生成するツールが公開！ https://t.co/d7kRsaAG6d pic.twitter.com/7aAUonGZki
— やまかず (@Yamkaz) December 10, 2022

RVC

RVC web UI

RVC JP

bark-with-voice-clone

音声を複製できるらしい

どうやら自分の声を10秒くらい録音するだけで複製できるやばい時代が来てしまったらしい。
家で試そう。https://t.co/ZlrhiIdrFw
— goto@meta翻訳開発者 (@goto_yuta_) April 22, 2023

ChatdollKit

これはエンジニアのみなさんに耳寄り情報なのですが、ChatdollKitを使えばおしゃべりAIみたいなアプリはすぐに作れます

https://twitter.com/uezochan/status/1646001014494072834?s=20

これはエンジニアのみなさんに耳寄り情報なのですが、ChatdollKitを使えばおしゃべりAIみたいなアプリはすぐに作れます https://t.co/bej4VaH2ut
— うえぞう@うな技研代表 (@uezochan) April 12, 2023

3D virtual assistant SDK that enables you to make your 3D model into a voice-enabled chatbot. 🇯🇵日本語のREADMEはこちら
 🇬🇧 Live demo English Say "Hello" to start conversation. This demo just returns what you say (echo).
🇯🇵 Live demo in Japanese「こんにちは」と話しかけると会話がスタートします。会話がスタートしたら、雑談に加えて「東京の天気は？」などと聞くと天気予報を教えてくれます。

https://github.com/uezo/ChatdollKit

KAEDIM3D

画像から3Dモデルを生成する。

Stop losing hours to modeling tools. Generate stunning 3D art with nothing more than an image.

https://www.kaedim3d.com/

画像から3D化するやつ試してみた。入力画像は1枚。#kaedim3d pic.twitter.com/cKFm6eAwxv
— Tatsuya Uehara (@ue_ta) April 10, 2023

Github Copilot

RobustVideoMatting(RVM)

いわゆる人物切り抜きのネットワークモデルです。
RobustVideoMatting(RVM) はそのうちの一つですが、高品質かつ高速に動作するということで注目されています。

https://qiita.com/CitronSeason/items/f763702f827b6ae83c19?utm_campaign=post_article&utm_medium=twitter&utm_source=twitter_share

Githubのプロジェクトページを見ると、このモデルのonnxが公開されているのでonnxruntimeを使用して、TouchDesigner上で動かしてみました！
このブログでは、全くゼロの状態からRVMを動かすまでを説明します。
だれでも簡単に導入できるっぽいから遊ぼうぜ！という意図で作りました。

https://qiita.com/CitronSeason/items/f763702f827b6ae83c19?utm_campaign=post_article&utm_medium=twitter&utm_source=twitter_share

ブログを書きました！

　通常、動画の背景を後で編集したい場合は、その動画を撮影するときに背景をグリーンバックにしますが、これは結構面倒です。そこで、今回ご紹介するのは、撮影済みの動画の背景をグリーンバックに変更するRVMという技術です。

ブログ：https://t.co/PPI1FIdh0I pic.twitter.com/pZktORRFGc
— cedro (@jun40vn) November 22, 2021

Runway

RunwayのAdd Green Background。

相変わらずワンクリックでこれができるの凄いんだけど、背景をグリーンに差し替えてエクスポートするってどういう時に使うの？？

アルファ付きがmp4とかだと出力できないから、これをグリーンキャンセルしてねってこと…？？ pic.twitter.com/4w2ZppyZAA
— しげぞう (@sgzo518) October 15, 2022

Novel AI

とうとう流出したNovelAIのモデルでweb版と同じ出力を出せる設定がみつかったらしいね、ほんとにおんなじにしか見えないやばいンゴ pic.twitter.com/mfOC2YDpuB
— moco / もこ (@moco_think) October 9, 2022

Drag Your GAN

GANで生成されたものをライオンの口を開けるみたいな感じで、GUIで操作できるらしい

OpenCALM

CyberAgent による日本語言語モデル
7b: https://huggingface.co/cyberagent/open-calm-7b
3b: https://huggingface.co/cyberagent/open-calm-3b
1b: https://huggingface.co/cyberagent/open-calm-1b
large: https://huggingface.co/cyberagent/open-calm-large
medium: https://huggingface.co/cyberagent/open-calm-medium
small: https://huggingface.co/cyberagent/open-calm-small

https://colab.research.google.com/gist/p1atdev/294325167bd300f309fa1ff1a4fe5881/opencalm.ipynb

日本語が話せる言語モデルOpenCALMをColabで動かすノートブックhttps://t.co/71R0crvfII

無料版のT4だと7bは動かなかったけど3bは動いた
3bでもかなりまともな文章生成される pic.twitter.com/09NpGIgov4
— Plat 🖼️ (@p1atdev_art) May 17, 2023

Omniverse Audio2Face

Audio2Face

Instantly create expressive facial animation from just an audio source using generative AI.

https://www.nvidia.com/en-us/omniverse/apps/audio2face/

faster-whsper

文字起こし

ManimML

deep learningがどういう処理が行われているか、guiで表示してくれる

https://www.itmedia.co.jp/news/spv/2307/12/news061.html

この記事が気に入ったらサポートをしてみませんか？