マガジン

  • AIアニメ

    AI画像生成+AI音声合成によるショートアニメの試作

  • ローカルLLM

    ローカルLLM関連は主にブログで更新しています。 https://sc-bakushu.hatenablog.com/

記事一覧

【AI動画生成】ComfyUIでポカリスエットCM風の動画をつくる

生成AI用の画像/映像作成ツール「ComfyUI」とその拡張機能の「ComfyUI-AnimateDiff-Evolved」を使って、CM風のショート動画を作ってみたので、その時の反省メモです。 実…

Baku
2週間前
27

饒舌な日本語ローカルLLM【Japanese-Starling-ChatV-7B】を公開しました

最近LLMコミュニティから生まれた小型MoEモデル「LightChatAssistant-2x7B」の日本語チャット性能がとても良いため、モデル作者さんが用いた手法(Chat Vector+MoEマージ)…

Baku
1か月前
98

【ローカルLLM】言語モデルの知識編集を試す(Knowledge Editing)

言語モデルの研究領域の一つに「知識編集(Knowledge Editing)」というものがあるらしい。 近年は言語モデルの大規模化による開発コスト膨張が問題になっており、既存モデ…

Baku
5か月前
29

【llama.cpp】CPUとRAM、どっちが重要?

llama.cppのCPUオンリーの推論について CPUでもテキスト生成自体は意外にスムーズ。なのに、最初にコンテキストを読み込むのがGPUと比べて遅いのが気になる。 ちょっと調…

Baku
5か月前
6

【ローカルLLM】Mixtral-8x7bをllama.cppで試す

2023/12/12:llama.cppで「Mixtral-8x7b」のGGUF量子化モデルを試しました(現時点でまだmergeされていないのでbranchを利用)。 「Mixtral-8x7b」はMistralがリリースし…

Baku
5か月前
18

【llama.cpp】Qwen-14BをGGUF量子化して日本語で試す

2023/12/05:llama.cppが「Qwen」に対応したので試しました。 「Qwen」は中国Alibabaグループが手掛ける大規模言語モデルシリーズで、テキストモデルは1.8B/7B/14B/72Bが…

Baku
5か月前
7

【AIアニメ】ComfyUIではじめるStable Video Diffusion

11月21日にStabilityAIの動画生成モデル「Stable Video Diffusion (Stable Video)」が公開されています。 これによりGen-2やPikaなどクローズドな動画生成サービスが中心…

Baku
5か月前
59

AnimateDiffでドット絵アニメをつくる / Pixel Art with AnimateDiff

AnimateDiffでドット絵アニメを作ってみたらハマったので、ワークフローをまとめてみました。 ComfyUI AnimateDiffの基本的な使い方から知りたい方は、こちらをご参照くだ…

Baku
6か月前
58

ComfyUI AnimateDiff + LCM-LoRAによる高速な動画生成を試す

StableDiffusionを高速化するLCM-LoRAを応用したAnimateDiffワークフローが話題になっていたので、さっそく試してみました。 LCM-Loraを使うと8以下のStep数で生成できる…

Baku
6か月前
41

【AIアニメ】AnimateDiffでアニメが作れるか?(2)

前回の記事のつづきで、AnimateDiffをつかった短い「アニメ」を試作しています。 一部の場面ではキャラにリップシンク(口パク)をさせたいので、動画と並行して声(セリ…

Baku
6か月前
13

GPT 3.5-turboが20Bパラメータという話の後日談

TL;DR 論文著者によれば「論文に書いたパラメータ数の出所はForbesの記事であり、その記事にソースの記載はない」とのこと。 10月26日にarxivに掲載された論文で、GPT 3.…

Baku
6か月前
11

【AIアニメ】AnimateDiffでアニメが作れるか?(1)

AnimateDiffを使うと数秒のアニメーションなら手軽に作れます。これらを編集してセリフをつければ、ちょっとしたショートアニメ作品も作れるのでは?と思いました。 以前…

Baku
7か月前
39

ComfyUI-LCMによるVid2Vidの高速変換を試す(Latent Consistency Models)

Latent Consistency Models(LCM)は、最小限のステップ数で迅速に推論できる新たな画像生成モデルです。 例えば768x768の画像が2~4ステップ程度で生成できるとのこと(S…

Baku
7か月前
19

ComfyUI AnimateDiffで戦前の映像をリマスターしてみる

Youtubeを見ていると、AIによって着色・高精細化した古い映像がアップされていたりします。 ComfyUI-AnimateDiffを利用すると、このようなモノクロ映像のAIリマスターを手…

Baku
7か月前
17

【AIアニメ】ComfyUI AnimateDiff でInpaintを試す

@toyxyz3さんのツイートで、ComfyUI AnimateDiffでのControlNet Inpaintの活用例が紹介されていました。 上記の例では、静止画のうちマスクした部分が動画化されています…

Baku
7か月前
12

【AIアニメ】ComfyUI AnimateDiffでSDXLモデルを試す(HotshotXL)

「Hotshot-XL」は、Stable Diffusion XL(SDXL)モデルを使ってGIF動画を生成するためのツールです。 「ComfyUI-AnimateDiff」が、最近この「HotshotXL」に対応したような…

Baku
7か月前
50
【AI動画生成】ComfyUIでポカリスエットCM風の動画をつくる

【AI動画生成】ComfyUIでポカリスエットCM風の動画をつくる

生成AI用の画像/映像作成ツール「ComfyUI」とその拡張機能の「ComfyUI-AnimateDiff-Evolved」を使って、CM風のショート動画を作ってみたので、その時の反省メモです。

実写系の動画生成もちゃんと試しておこうと思い、一昔前のポカリスエットのCMのイメージで30秒程度の動画を作ってみました。

カット1:砂浜にとめた自転車

冒頭のカットは、自転車の写ったフリー画像をお借

もっとみる
饒舌な日本語ローカルLLM【Japanese-Starling-ChatV-7B】を公開しました

饒舌な日本語ローカルLLM【Japanese-Starling-ChatV-7B】を公開しました

最近LLMコミュニティから生まれた小型MoEモデル「LightChatAssistant-2x7B」の日本語チャット性能がとても良いため、モデル作者さんが用いた手法(Chat Vector+MoEマージ)を後追いで勝手に検証しています。

その過程で複数のモデルを試作したところ、7Bクラスとしてはベンチマークスコアがやたら高いモデルが出てきたので「Japanese-Starling-ChatV-7

もっとみる
【ローカルLLM】言語モデルの知識編集を試す(Knowledge Editing)

【ローカルLLM】言語モデルの知識編集を試す(Knowledge Editing)

言語モデルの研究領域の一つに「知識編集(Knowledge Editing)」というものがあるらしい。

近年は言語モデルの大規模化による開発コスト膨張が問題になっており、既存モデルをより長く利用するための低コストな知識更新手法に注目が集まってる(らしい)。

とはいえ既存の知識編集手法は不確実性が高いうえ、モデル性能が劣化する副作用も存在する(らしい。こちらやこちらのアブストラクトを参照)。

もっとみる
【llama.cpp】CPUとRAM、どっちが重要?

【llama.cpp】CPUとRAM、どっちが重要?

llama.cppのCPUオンリーの推論について

CPUでもテキスト生成自体は意外にスムーズ。なのに、最初にコンテキストを読み込むのがGPUと比べて遅いのが気になる。

ちょっと調べたところ、以下のポストが非常に詳しかった。

CPUにおけるLLama.cppの高速化(超抄訳)

「CPU推論のボトルネックはCPUじゃなくてメモリの性能」と聞くものの、最初のプロンプト処理の速さはCPU次第らしい

もっとみる
【ローカルLLM】Mixtral-8x7bをllama.cppで試す

【ローカルLLM】Mixtral-8x7bをllama.cppで試す

2023/12/12:llama.cppで「Mixtral-8x7b」のGGUF量子化モデルを試しました(現時点でまだmergeされていないのでbranchを利用)。

「Mixtral-8x7b」はMistralがリリースしたMoE(Mixture of Experts)構造のLLMです。

英語+欧州主要言語に対応しており、それらの言語でのベンチマークスコアはGPT-3.5&Llama-2-7

もっとみる
【llama.cpp】Qwen-14BをGGUF量子化して日本語で試す

【llama.cpp】Qwen-14BをGGUF量子化して日本語で試す

2023/12/05:llama.cppが「Qwen」に対応したので試しました。

「Qwen」は中国Alibabaグループが手掛ける大規模言語モデルシリーズで、テキストモデルは1.8B/7B/14B/72Bがあります。

英/中メインの多言語モデルで、日本語性能も同サイズのLlama-2/Mistralに比べれば高いっぽいです。

QwenをGGMLで量子化・推論するための「qwen.cpp」が

もっとみる
【AIアニメ】ComfyUIではじめるStable Video Diffusion

【AIアニメ】ComfyUIではじめるStable Video Diffusion

11月21日にStabilityAIの動画生成モデル「Stable Video Diffusion (Stable Video)」が公開されています。

これによりGen-2やPikaなどクローズドな動画生成サービスが中心だったimage2video(画像からの動画生成)が手軽に試せるようになりました。

このnoteでは「ComfyUI」を利用したStable Videoの使い方を簡単にまとめま

もっとみる
AnimateDiffでドット絵アニメをつくる / Pixel Art with AnimateDiff

AnimateDiffでドット絵アニメをつくる / Pixel Art with AnimateDiff

AnimateDiffでドット絵アニメを作ってみたらハマったので、ワークフローをまとめてみました。

ComfyUI AnimateDiffの基本的な使い方から知りたい方は、こちらをご参照ください。

1. カスタムノード特別なカスタムノードはありません。以下の2つだけ使います。
https://github.com/Kosinkadink/ComfyUI-AnimateDiff-Evolved

もっとみる
ComfyUI AnimateDiff + LCM-LoRAによる高速な動画生成を試す

ComfyUI AnimateDiff + LCM-LoRAによる高速な動画生成を試す

StableDiffusionを高速化するLCM-LoRAを応用したAnimateDiffワークフローが話題になっていたので、さっそく試してみました。

LCM-Loraを使うと8以下のStep数で生成できるため、一般的なワークフローに比べて生成時間を大幅に短縮できるようです。

ワークフローComfyUI AnimateDiffの基本的な使い方から知りたい方は、こちらをご参照ください。

今回試

もっとみる
【AIアニメ】AnimateDiffでアニメが作れるか?(2)

【AIアニメ】AnimateDiffでアニメが作れるか?(2)

前回の記事のつづきで、AnimateDiffをつかった短い「アニメ」を試作しています。

一部の場面ではキャラにリップシンク(口パク)をさせたいので、動画と並行して声(セリフ)の生成にも手をつけます。

カット「もう11月だよ」

「ちょっと前まであんな暑かったのに…」と言う姉(りりこ)に対して、妹(みいこ)が返答する場面です。

カット2と同じくモデルは「Counterfeit-V3.0」で、オ

もっとみる
GPT 3.5-turboが20Bパラメータという話の後日談

GPT 3.5-turboが20Bパラメータという話の後日談

TL;DR 論文著者によれば「論文に書いたパラメータ数の出所はForbesの記事であり、その記事にソースの記載はない」とのこと。

10月26日にarxivに掲載された論文で、GPT 3.5-turboのパラメータ数が200億(20B)という記載があり、数日前に話題になった。

論文著者が(OpenAIと提携している)Microsoftの研究者だったこともありバズったものらしい。

この件に関して

もっとみる
【AIアニメ】AnimateDiffでアニメが作れるか?(1)

【AIアニメ】AnimateDiffでアニメが作れるか?(1)

AnimateDiffを使うと数秒のアニメーションなら手軽に作れます。これらを編集してセリフをつければ、ちょっとしたショートアニメ作品も作れるのでは?と思いました。

以前に試したもの

アニメ用のAI音声合成(Koeiromap)などは、以前の記事で試したことがあります。当時の投稿はこちら。

ただ肝心のアニメーションについては、AI動画生成がまだ難しかったので、静止画を中心とした編集にせざるを

もっとみる
ComfyUI-LCMによるVid2Vidの高速変換を試す(Latent Consistency Models)

ComfyUI-LCMによるVid2Vidの高速変換を試す(Latent Consistency Models)

Latent Consistency Models(LCM)は、最小限のステップ数で迅速に推論できる新たな画像生成モデルです。

例えば768x768の画像が2~4ステップ程度で生成できるとのこと(Stable Diffusionだとざっくり20ステップくらい)。

このLCMをComfy UIの拡張機能として実装したのが「ComfyUI-LCM」です。

Comfy UI-LCMを使ったVid2

もっとみる
ComfyUI AnimateDiffで戦前の映像をリマスターしてみる

ComfyUI AnimateDiffで戦前の映像をリマスターしてみる

Youtubeを見ていると、AIによって着色・高精細化した古い映像がアップされていたりします。

ComfyUI-AnimateDiffを利用すると、このようなモノクロ映像のAIリマスターを手軽に試すことができます。

必要な準備ComfyUI本体の導入方法については、こちらをご参照ください。
今回の作業でComfyUIに追加しておく必要があるものは以下の通りです。

1. カスタムノード

次の

もっとみる
【AIアニメ】ComfyUI AnimateDiff でInpaintを試す

【AIアニメ】ComfyUI AnimateDiff でInpaintを試す

@toyxyz3さんのツイートで、ComfyUI AnimateDiffでのControlNet Inpaintの活用例が紹介されていました。

上記の例では、静止画のうちマスクした部分が動画化されています。

この記事では上記のワークフローを参考に「動画の一部をマスクし、inpaintで修正する」方法を試してみます。

必要な準備ComfyUI本体の導入方法については、こちらをご参照ください。

もっとみる
【AIアニメ】ComfyUI AnimateDiffでSDXLモデルを試す(HotshotXL)

【AIアニメ】ComfyUI AnimateDiffでSDXLモデルを試す(HotshotXL)

「Hotshot-XL」は、Stable Diffusion XL(SDXL)モデルを使ってGIF動画を生成するためのツールです。

「ComfyUI-AnimateDiff」が、最近この「HotshotXL」に対応したようなので試してみました。

留意点ちょっとややこしいですが「AnimateDiff」と「HotshotXL」は別物です。「ComfyUI版のAnimateDiff」が独自に機能拡

もっとみる