Leonardo AIの多様な画像生成方法

uzulan

2024年1月6日 17:02

はじめに

画像生成方法の４つの分類

画像生成AIの、画像生成方法について、あるnoteの記事で、次のように４つに分類していました。
引用します。

このなかで、提示されている４つの分類は、つぎのようになります。

■テキストプロンプトから画像生成：「text_to_image」と呼ばれます。
■AIによるプロンプトでお任せ画像生成：画像生成AIサービス・ツールによってはこの機能があります。
■画像から画像生成：「img2img」「image_to_image」と呼ばれます。
■リアルタイム画像生成：2023年の後半に登場。描画する線画に基づいて、リアルタイムに画像生成を行います。（オリジナルに補記）

この分類が一般的かどうかは、不勉強でよくわからないのですが、これに基づいて仰っていることが、なんとなく腑に落ちるように思えたので引用させていただきました。

それぞれの画像生成方法とそれを選ぶ人との関係

この著者の木村さんは、それぞれの画像生成のアプローチ方法に対して、各ユーザーの性格やスキルレベルによって、それぞれ好みが分かれるだろうと仰っているのです。
特に、１のテキストプロンプトベースと４のリアルタイム画像生成方法の好む人々の違いを対比して述べられています。

なかなか、興味深い考察だと思います。

つまり画像生成方法により、対象とする購買層（マーケット？）が異なる、ともいえそうです。

たしかに、今後、全体のマーケットの拡大とともに、２極化するのかもしれません。

プロンプト派

現時点では、生成AIに端を発する画像生成用のプロンプトエンジニアリングが全盛で、X（ツイッター）やFacebookなどでも、画像生成用にどのようなプロンプトが効果的か、という投稿が主流です。かなり、こだわりの深い人が多い、という印象です。

ただ、偶然の要素も大きいので、勘と経験の職人芸的な世界の感じもします。基本モデルや、LoRA等のエフェクタが変わると、またガラッとその効果が異なるので、たゆまぬ修行が必要です。

リアルタイム派

リアルタイム派は、まだ新しく、これから台頭してくるかもしれません。

なお、以下の説明は、通常のリアルタイム画像生成とやや異なっているかもしれません。普通は、ラフスケッチをそれなりの画像にリアルタイムに変換してくれる、というものです。ただし、その効果レベルを上げると様相は全く異なります。以下は、その場合の説明です。

こちらの方式は、どのように、創ったかを説明するのがやや困難で、再現性に乏しく、やや行き当たりばったりという印象です。これまた、設定のモデルや諸エフェクタによりその変化は大きく異なります。

この場合、必ずしも、絵のスキルは必要はありません。設定によっては、どのように画像が変化するかが全く予想できなく、瞬間芸といいますか、かなり偶然の要素が大きいびっくりするような画像を得ることができます。

また、そういう変化をリアルタイムで見ることができるのが面白いと感じる人も多いかと思います。

特に、スマートフォンなどで、ちょこちょこっと画像を生成するのに適しているように感じます。
あまり考えなくても、偶然で手軽にいい画像が創れる、とも言えます。

また、この技術は、新たな動画作成の方法につながるようにも感じます。

Leonardo AIの画像生成方法について

さて、LeonardoAIには、この４つの生成方法が、2024/1月現在、機能としてすべて組み込まれています。
Leonardo AIは、2023/11月以降に、急速にその機能を強化してきています。
具体的にそれぞれと各機能を対応させてみます。

Leonardo AIの４つの画像精製方法に対応する機能

先ほどの分類に対応するのは、それぞれ、次のようになります。

Image Generation　：Text to Imageです
Prompt Generation：Image Generationの機能の一つとして設定されています。プロンプトの作成補助機能です。
img2img：これについては、次の２ヶ所で設定されています。

3-1. Image Guidance：これ自体は、上記のImage Generationの機能の一つです。さらに、これには、次の５つの機能があります。

① Image to Image ② Depth to Image ③ Edge to Image ④ Pose to Image ⑤ Text Image Input

3-2. Canvas Editor：これには４つの機能があります。
①Text2Image, ②Inpaint / Outpaint, ③Image2Image, ④Schech2Image

4.Realtime Canvas：2023/12/4、LiveCanvasという名称で登場。その後、Realtime Canvasに名称変更。描いた線画をリアルタイムで画像に変換する機能です。image2imageと組み合わせることもできます。

注：
a. それぞれ、Image to ImageとImage2Imageと記載されており、区別しているようです。
b. なお、少しややこしいのですが、現時点（2024/1/6)では、3-1と3-2の各項目の、それぞれのLeonardoAIのHPにあるHelp等での説明は、実際の画面と分類や機能、名称等が異なっていることがあります。ここでは、実際の画面のメニューに基づきました。メニューが大分整理されてきた印象です。
c. 3-1, 2のこれらの機能は、要素技術的には、Stabele Diffusionに組み込まれているControl Netという技術がベースとなっています。逆に言えば、image2imageは、Control Netの内の一つといえます。
本記事最後のメモで説明しています。

Leonardo AIのさらなる機能

さらに、この他に、LeonardoAIには、次の機能があります。

5.Motion：

2023/12/24登場。生成した画像を基に、4秒の動画を生成します。追加のプロンプトでさらに動きを変えることができます。

6.Reatime Gen ：

2023/12/31登場。同社のLoRA（Low-Rank-Adaptation）であるElementsの一部の組み合わせをリアルタイムに変えることができ、生成画像の変化を見ながら調整することができます。

このように、Leonardo AIは、多機能なので、それぞれの好みに応じた様々な方法で画像を生成することができます。

動画生成について

Motion生成した画像で、動画を創ることもできます。最も、生成できる時間は４秒で、どのように変化させるかは、おまかせ、のみです。

生成の基になる画像は、どうやら今は、プロンプトがあるものに限られているようですが、リリースの時より、画像がきれいで動きも安定して来ており、大分、改良されてきているような印象を受けます。

動画生成については、一般的には、Runway Gen-2やPikaなどの評判がいいようです。さらに、どんどん新しいのが出てきています。

現在、Pikaは無料で色々トライできるので、使いやすい印象です。また、Pikaの場合は、もととなる静止画像をエントリーして、プロンプトを加えることにより、動画を作れます。

つまり、Pikaの基となる静止画そのものにプロンプトがなくても、動画生成できます。これにより、LeonardoAIのMotionの代わりとして便利です。

Leonardo AIのリアルタイム生成や、Canvas Editor等のControl Net技術で編集した画像には、全体のプロンプトが基本ありませんが、Pikaなら、その画像を基に動画作成ができるわけです。

image2imageとPromptGenerationをベースとした画像生成方法

どうやら私自身は、先ほどの分類で言えば、１でも４でもなく、２のタイプかと思ってます。

４は、とても面白いのですが、ちょっとしたプラス・マイナスで、生成画像が大きく変わるため、その変化の過程の自動記録がほしいように思います。

LeonardoAIの2の方式は、Dall-E3＋Chat GPT4、ほどの日本語に対するフレキシビリティーはないかもしれませんが、、、はっきり言って日本語対応対応が弱いです。

（NotionAIやDeepLなどの、翻訳アプリ）＋（PromptGeneration ✕ Image GenerationのImprove Prompt）
の組み合わせにより、最初入力したフレーズからはとても考えつかないような、複雑なプロンプト＝緻密で高精細な画像、を作成してくれます。

また、image2imageを用いることにより、全体の構図のベースとして、写真画像等を用いることもできます。

このようにして、自分専用のオリジナルな基本構成は、割合すぐに準備をすることができます。

それをベースに、様々なモデルや、アルケミーのプリセット、Elemenntsなどの組み合わせ、それぞれの効果の重みを変えるなとで、様々な画像が生成されます。

色々試していると、結構、トークンを使います。さらに、ついつい、動画もトライアルしたくなります。また、トークンが減ります。

現状の使用頻度

まだ、有料契約2ヶ月目ですが、有料契約初の先月は、約1500トークンを流してしまいました。現在、2ヶ月目で契約起点日から約10日目で、約3000トークン使ってますので、今月は、ちょうどか、少し足りない感じかもしれません。

使い方がだんだんわかってきて、トライアル回数が多くなってきています。

少し熱中すると500トークンぐらいは、すぐに使ってしまいます。集中して使うには、無料の150トークン/日では少ないかもしれません。

また、無料の場合、結構機能が制限もされています。残念です。

最も、他の画像生成AIを試す、などといったことを併用する、という手段もあろうかと思います。
次々と新しいのが出てきているので、今後一年同じので、大丈夫かどうかは、たしかに、わかりません。

ただ、本記事で示したように、LeonardoAIは、多機能化の進化が早く、基本性能も向上しているようなので、当面は使えると感じてます。

最近は、思いつくと、iPadで、専用アプリではなく、ChromeでLeonardoAIやPikaを使うことも結構多くなっています。その場合、旧型なので、ちょっと遅いのが難点ですが。

まとめ

ということで、Leonardo AI、の現時点でもつ画像生成生成機能について、少しまとめてみました。

LeonardoAIは、2023年後半から、画像生成関連の流行りをどんどん取り入れてきています。その結果、様々な画像生成方法を、高いレベルで試すことができるので、その観点からも、画像生成AIに興味のある方に案外おすすめです。

逆の言い方をすれば、自分の好きな画像生成方法で画像を創ることができるので、万人向けと言えるかと思います。
どれが自分に気に入るか分からない場合は、それぞれの方式を試すことができます。

自分の気に入った方法で、画像創りを楽しめます。

ただ、画像生成のクオリティーについては、You Tubeなどで、色々比較されていますが、LeonardoAIは、その点で決して一番とはいえないかもしれません。

たとえば、ベースモデルそのものも、ご本家の、Stabel Diffusionに比べ、ちょっとバージョンが低かったりします。

ただし、上記の４つの画像生成方法＋αを、機能としてすべて持つ、ということから、画像生成の方法を学ぶという点では、なかなかいい選択なのではと思います。

さらに、独自に学習させたオリジナルモデル造りも頑張っています。それらを用いた画像のクオリティーへの評価も決して低くはありません。今のところは、ですが。

動画もこれ一つで、まずは、作れます。無料でも制限はありますが、使えますし、有料の価格も比較的安価です。

Webアプリである特性を活かし、リアルタイム画像生成などを軸に、スマートフォン市場で、今後伸びる可能性もあります。

会社のあるオーストラリアって、ともすれば、辺境というイメージですが、だからこそ流行に敏感なのかもしれません。英語圏の強みでしょうか。

もっとも、有名なCanvaもオーストラリアなので、彼らから見れば、さらに辺境の日本からそんなこと言われるのはちょいと、、、ということかもしれませんが。

あ、ちなみに、私は、Leonardo.Aiとは全く無関係です。

今回は、以上です。

メモ

Control Netについて

Bardによると次のような技術とのことです。

ControlNetは、拡散モデルを用いた画像生成において、生成結果をより細かく制御するための技術です。
拡散モデルは、画像をノイズから徐々に生成していくモデルです。このモデルの特徴として、生成結果の品質が高いことが挙げられます。しかし、一方で、生成結果を意図した通りに制御することは難しいという課題もありました。
ControlNetは、この課題を解決するために開発された技術です。ControlNetでは、拡散モデルの生成結果を、画像の特徴量を表すベクトルに変換します。そして、このベクトルを制御することで、生成結果を意図した通りに制御することができます。
具体的には、ControlNetでは、次の3つのステップで生成結果を制御します。

画像の特徴量を抽出する
抽出した特徴量を制御する
制御された特徴量から画像を生成

1つ目のステップでは、画像をCNNで処理して、画像の特徴量を抽出します。2つ目のステップでは、抽出した特徴量を、ユーザーが指定する値で制御します。3つ目のステップでは、制御された特徴量から画像を生成します。
ControlNetは、2023年2月に論文発表された後、わずか2週間でStable Diffusionの拡張機能として実装されました。このことからも、ControlNetの技術的優位性がうかがえます。
ControlNetは、画像生成の新たな可能性を切り開く技術として、注目されています。例えば、ControlNetを用いることで、次のようなものを実現することができます。

キャラクターに特定のポーズを取らせる
風景に特定のオブジェクトを追加する
画像の色調を変更する

ControlNetとStable Diffusionは、画像生成技術の新たな可能性を切り開く技術として、注目されています。今後、この2つの技術が組み合わせて使用されることで、画像生成のさらなる進化が期待されます。

以下に、ControlNetとStable Diffusionの役割をまとめます。

技術　　　　　　　役割
ControlNet　　：　拡散モデルを用いた画像生成において、
　　　　　　　　　生成結果をより細かく制御する
Stable Diffusion：　拡散モデルを用いた画像生成AI

ControlNetは、今後も画像生成技術の進化を牽引していくことが期待されています。

以上

この記事が気に入ったらサポートをしてみませんか？