Hi君

AIを含めたテクノロジーの可能性を検討するHIKE Tech note（仮）です！検…

生成画像の類似度を評価する＃1

こんにちは！Hi君です。画像生成AIを触っていると、生成画像の選抜が必要になる時があります。 reference only を使っても、人の望む類似画像が出力されず似ているものだけを選んだり、ピックアップしてLoraに与える事もあると思います。また、寝る前に始めの数枚がうまくいったので、仕掛けて寝て起きたら割とボツが多かったという経験もあるかもしれません。今回から4回に分けて人に替わって画像類似度を人のように評価するプログラムを検討してみます。ニーズと概要・ニーズは

フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ②

こんにちは！Hi君です。前回は「参考になるリポトジ・記事」に関してご紹介しましたが、今回は「訓練にかかる時間の見積もり」に関してのまとめです。訓練に掛かる時間の見積もりについてまず最初に、Cool Japan Diffusionの「RTX3090で300時間学習に時間を要した」という情報を元に、RTX4090を使用した場合どの程度時間がかかるか、という点について目処を立てる際に有用な情報です。 gtx1070 → gtx1080ti → rtx3090ti → rtx4

Hi君

9か月前

8
フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ

こんにちは、Hi君です。 Stable Diffusionに利用するモデルについて、訓練を行う際にどの程度の生成物を出力するにあたり、かかる時間や、どういった計算機リソースを利用する必要があるか、また参考情報が記載されている記事についてまとめてみました。初めにStable Diffusionの公式モデルは、LAION-5Bデータセットを利用しています。一方、LAION-5Bデータセットは本来研究用のデータセットであるため、商用利用する際は、リスクが大きいことを念頭に入れて

Hi君

10か月前

6
Mitsua Diffusion Oneの表現能力・モデル概要まとめ

こんにちは、Hi君です。 Mitsua Diffusion Oneと呼ばれるパブリックドメイン/CC0および許諾を得た画像のみを用いてゼロから学習したモデルがあります。今回は、そのモデルの描画能力等について調査を行った結果をまとめてみました。モデルの詳細は次のページを参照して下さい：結論としては、主に以下の3点から、「即戦力的なモデルではない」ということです。当然のことではありますが、実際使う際は「追加学習が必須」になります。データセットに偏りがある可能性が高い（写

Hi君

10か月前

5

生成画像の類似度を評価する＃1

Hi君

9か月前

フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ②

8

Hi君

9か月前
フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ

6

Hi君

10か月前
Mitsua Diffusion Oneの表現能力・モデル概要まとめ

5

Hi君

10か月前

キャラクターの同一性を保つ形での画像生成について

こんにちは！Hi君です。以前、「ControlNet v1.1」における表情制御について取り上げました。今回も表情制御をテーマにして、顔に大きなポーズ変化が無い状態での表情制御(感情制御)でのワークフロー例[にこやかな表情 ➔ 悲しげな表情]について、いろいろと試して気づいたことをまとめています。 ■今回の調べ方・下の2種類の画像ケースのように、顔ガイダンス情報が同一の画像・モデル設定を使用し、一方でプロンプトは異なるケースで画像生成を工夫。・素朴に行うと、瞳の色

Hi君

10か月前

8
キャラクターの同一性を保つ形での画像生成について

8

Hi君

10か月前
video2video関連　動画データに対しての画風変換・生成まとめ

こんにちは、Hi君です。こちらも少し古い情報にはなりますが、せっかく調べたので記事としてまとめてみました。お付き合いください。 Batch img2imgAUTOMATIC1111/stable-diffusion-webuiの拡張機能の一つであるBatch img2img。こちらは特定のディレクトリ内の画像群を入力し、画像生成を行うことができます。ただ画像群につき1つのpromptやcontrolnet設定・ガイド画像を適用出来ないことが大きな欠点の一つです。 img

Hi君

11か月前

4
video2video関連　動画データに対しての画風変換・生成まとめ

4

Hi君

11か月前
ControlNet v1.1を用いた表情制御について

こんにちは！Hi君です。 AI画像生成において不可欠な技術である「ControlNet」。今回は、その新バージョンである「ControlNet v1.1」について色々と試してみてわかったことをまとめました！ ■調べてみてわかったこと・ControlNet v1.1ではMediaPipeFaceモード、mediapipeを用いた顔認識 + 表情制御用ガイダンス情報を付与しながら画像生成するような拡張機能が追加された。　▶今までは表情制御用の拡張機能は無く、Cannyエッジ

Hi君

11か月前

10
ControlNet v1.1を用いた表情制御について

10

Hi君

11か月前
OpenPoseやControlNetのソフトウェアライセンス関連のまとめ

こんにちは！Hi君です。本日はOpenPose及びControlNetのソフトウェアライセンス関連について、まとめてみました。はじめに OpenPoseという著名なポーズ認識用ツールがあることはご存知かと思いますが、CMUのOpenPoseは非商用ライセンスになります。（商用の場合は約250万円/年のライセンス料が発生します）参考1：関連Twitter 参考2：マイケル・ジョーダンのすごさを過去の放送映像からAI解析一方、Stable Diffusionで多

Hi君

11か月前

17
OpenPoseやControlNetのソフトウェアライセンス関連のまとめ

17

Hi君

11か月前
あえて話したい！Stable Diffusion周辺の理論・内部実装。読んでおくべき記事の紹介

こんにちは、Hi君です。ついに梅雨入りし、なんとなく気が滅入る日が多くなりましたね。そんな今日は、改めてStable Diffusion周辺の理論や内部実装の解説、またその背景にある数理モデル等を読み解くのに必要な記事の紹介をしていきたいと思います。 Stable Diffusionの背景理論についてSD関連参考論文：最適化対象のモデルは下記2つの論文に書いてあります。損失関数設計 + パラメタ学習フロー等はこちらの論文という形です。利用されているモデル(Late

Hi君

11か月前

10
あえて話したい！Stable Diffusion周辺の理論・内部実装。読んでおくべき記事の紹介

10

Hi君

11か月前
LLMの実利用をより柔軟に、簡易に行う「LangChain」とは？

こんにちは！Hi君です。今回の記事ではLangChainと呼ばれるツールについて解説します。少し長くなりますが、どうぞお付き合いください。 ※LLMの概要についてはこちらの記事をぜひ参照して下さい。　▶ChatGPT・Large Language Model(LLM)概要解説【前編】　▶ChatGPT・Large Language Model(LLM)概要解説【後編】 LangChain■概要・LLMの実利用をより柔軟に、簡易に行うためのツール群です。Lang

Hi君

1年前

7
LLMの実利用をより柔軟に、簡易に行う「LangChain」とは？

7

Hi君

1年前
使い方は人次第？GLIGENとは

こんにちは、Hi君です。今回はバウンディングボックスとプロンプトを指定し、指定した領域に対象物を生成するための手法であるGLIGENについてお話ししたいと思います。 GLIGENにはオンラインデモ及びSD拡張パッケージがあります。ただしSD拡張につき、サンプラー設定によっては意図した動作を行えない事もあるようです。一方、Latent Coupleでも指定した領域に指定した対象を画像生成することが出来るので、ツールとしてどちらが優位かはよくわかりませんでした。個人的には、

Hi君

1年前

8
使い方は人次第？GLIGENとは

8

Hi君

1年前
Deforumをさわってみた。

こんにちは、Hi君です。蒸し暑い日が少し多くなりましたね。今にも梅雨がやってきそうな気配を感じ、戦々恐々としています。今回はアニメーション的な連続的画像生成を行うためのツールキット群であるDeforumについて。SD用の拡張パッケージもあります。カメラワークを指定して、推移的にtxt2img、img2imgを行う事ができますが、後述するように仕様が少しトリッキーな部分があるので、これ単体で実用的な処理（ラフな中割りなど）を行うのは難しそうな印象です。 Stable D

Hi君

1年前

8
Deforumをさわってみた。

8

Hi君

1年前
ついに3Dも！3Dシーンを生成するNeRFに関して

こんにちは！Hi君です。今回は3Dに関してです。少し長くなりますがお付き合いください。 3Dシーンを生成するLumaAIやNeRFStudioでは、画像セットから再構築された3次元シーン情報について、カメラワークを指定して画像や動画を生成することが出来ます。こちらのTwitterにもあるように、スムーズな3D映像が簡単に生成できるので、もしかしたらアニメの背景作成補助等にも使えるかもしれません。では一つ一つのツールについて、調べてみましたのでご紹介します。 NeR

Hi君

1年前

11
ついに3Dも！3Dシーンを生成するNeRFに関して

11

Hi君

1年前
ChatGPT・Large Language Model(LLM)概要解説【後編】

こんにちは！Hi君です。前編では「ChatGPT」について解説しました。後編ではそもそもの技術としてLarge Language Model (LLM) についてまとめてみます。 LLMとは■LLMとは何か・LLMは、大量のテキストデータを学習して自然言語処理を実現するためのモデル、あるいは技術体系を指します。　▶ChatGPTはLLMを利用したサービスです。　▶LLMには深層学習(Deep Neural Network)と呼ばれる種類の数理モデルが用いられていま

Hi君

1年前

10
ChatGPT・Large Language Model(LLM)概要解説【後編】

10

Hi君

1年前
ChatGPT・Large Language Model(LLM)概要解説【前編】

こんにちは！Hi君です。いまさらではありますが、今回はChatGPTと呼ばれる対話サービスと、その背景で使われているLarge Language Model (LLM) と呼ばれる技術について、前編（ChatGPT）・後編（LLM）にわけてそれぞれの概要を自分への備忘録的にまとめてみました。 ChatGPTについて■概要・ChatGPT: https://chat.openai.com/ ・無償で使えます。・便宜上、ChatGPT上の対話エージェントを以後"AI"、

Hi君

1年前

10
ChatGPT・Large Language Model(LLM)概要解説【前編】

10

Hi君

1年前
ポーズ・表情制御に関する手法を調べてみていた

こんにちは！Hi君です！調べていたのに「古すぎるかな」と投稿を躊躇していたことを公開します。それは、画像生成におけるポーズや表情制御に関する手法です。既知という方も、そうでない方も基礎的な情報としてご覧いただけますと幸いです・・・！ memo「表情制御」（facial expression control）というワードは、GAN系でface meshから画像生成するような手法においてキーワードとしてよく用いられているという印象です。 YouTube3D POSE &

Hi君

1年前

15
ポーズ・表情制御に関する手法を調べてみていた

15

Hi君

1年前

最近の記事

生成画像の類似度を評価する＃1

フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ②

フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ

Mitsua Diffusion Oneの表現能力・モデル概要まとめ

生成画像の類似度を評価する＃1

フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ②

フルスクラッチ学習に必要な計算機リソース・時間・パブリックライセンスデータ入手先等の参考情報まとめ

Mitsua Diffusion Oneの表現能力・モデル概要まとめ

キャラクターの同一性を保つ形での画像生成について

キャラクターの同一性を保つ形での画像生成について

video2video関連 動画データに対しての画風変換・生成まとめ

video2video関連 動画データに対しての画風変換・生成まとめ

ControlNet v1.1を用いた表情制御について

ControlNet v1.1を用いた表情制御について

OpenPoseやControlNetのソフトウェアライセンス関連のまとめ

OpenPoseやControlNetのソフトウェアライセンス関連のまとめ

あえて話したい！Stable Diffusion周辺の理論・内部実装。読んでおくべき記事の紹介

あえて話したい！Stable Diffusion周辺の理論・内部実装。読んでおくべき記事の紹介

LLMの実利用をより柔軟に、簡易に行う「LangChain」とは？

LLMの実利用をより柔軟に、簡易に行う「LangChain」とは？

使い方は人次第？GLIGENとは

使い方は人次第？GLIGENとは

Deforumをさわってみた。

Deforumをさわってみた。

ついに3Dも！3Dシーンを生成するNeRFに関して

ついに3Dも！3Dシーンを生成するNeRFに関して

ChatGPT・Large Language Model(LLM)概要解説【後編】

ChatGPT・Large Language Model(LLM)概要解説【後編】

ChatGPT・Large Language Model(LLM)概要解説【前編】

ChatGPT・Large Language Model(LLM)概要解説【前編】

ポーズ・表情制御に関する手法を調べてみていた

ポーズ・表情制御に関する手法を調べてみていた

video2video関連　動画データに対しての画風変換・生成まとめ

video2video関連　動画データに対しての画風変換・生成まとめ