なすたろう

なすたろう

最近の記事

有料AIに漫画を描いてもらってセリフも考えてもらったら優勝はまさかの!

 仕事中にサーバーで壁紙を作ってました。よさそうなのを後でアップスケールしています。  Stable Diffusion と Animagazine3.1 、プロンプトは Danbooru Tags Upsampler という拡張を追加して自動的に生成させています。  その中でいくつか漫画っぽいのがでてきました。  ほのぼのっぽいのがでてきたので自分でセリフを考えましたが、心が闇に包まれているせいかとてもご披露できません。  ですので皆様向けにマルチモーダルなAIに考えてもら

    • この絵の感想を述べよ→ローカルLLM vs ChatGPT-4o vs Claude3 Opus vs Gemini 1.5Advance

       以前 StableDiffusionで生成した絵を、マルチモーダル対応のLLMに食わせたところ、そこそこよい結果が得られました  最新の商用AIではどうでしょうか  質問は以下の通りです Q. この絵をできる限り詳細に説明してください。また人がこの絵を見た時に受け取る感想も予想してみてください 結論から書きますと Claude3 Opus : 文章の組み立てがうまいなぁ。元気や希望を与えとか解析してきたよ ChatGPT-4o : ロジカルに説明してくる。でも十分ポ

      • 理研が公開してくれたLLM用 好ましくない質問への回答集

         理研が日本語LLM制作の時に作ってくれたjsonのテキストデータセット  自作LLMやLoRAを作成する際に、このデータセットを入れておけばある程度危険な質問に対してAIが回答を拒否するようなjsonデータセットを提供してくれました。すばらしい。  エッチな質問、テロに関連する質問、AIに(感情)依存しすぎの対策、などが含まれています  具体的にはこんな感じ。最初の2項目を抜粋しました [ { "ID": "answercarefully-instruction

        • ぼくのかんがえたさいきょうのCPUでてこないなー(M1maxは奇跡のCPUだった)

           M4はmacOSからみると盲腸を強い盲腸にする方向かぁ  もちろんiPadとして考えるとそれは盲腸ではなく素晴らしい頭脳  盲腸とはNuralEngine(NPU)のことです  Appleの戦略としては、とても正しいよなー  AppleのAIはAPI経由と割り切ってるのかもサブスクにできるので商業的に考えるとこれも正しい  ノーマルのNEで38TOPSだからSnapDragon8Gen2よりちょっと遅いくらい(IntelやAMDのNPUはゴミ性能だからまったく相手にならんし

        有料AIに漫画を描いてもらってセリフも考えてもらったら優勝はまさかの!

          LLMってメモリー帯域も大事だったのね

           何アタノマエのこといってんだコイツと思われた事でしょうが..  手持ちのWindowsはXeon E5-2643 x 2ソケットで動作させてまして、主に家中のPCやmacのバックアップをしたり、VMWareでWindowsを8台くらい動作させてActive Domain のテストなんかをしてます。  CPUのスペックは 3.4GHz の6コアなので合計12コア。  HyperThreadは切ってます。HTのセキュリティバグ対策です。もうインテルから対応パッチでないし。  

          LLMってメモリー帯域も大事だったのね

          LM Studioでマルチモーダルを使ってみる

           LM Studio 0.2.17 がマルチモーダルに対応したので試してみました。 環境は M1 mac です。メモリーは最低でも16GByteは欲しいところ。 手順をメモしておきます。 お手軽度はとっても低いです  いつものようにLM Studio を立ち上げて絵を放り込めば、という状態にはなっていません。  LM Studio をサーバーモードで起動して、OpenAIの互換APIに対してターミナルのpythonで聞き出す、というなんとも遠回りな方法です。 モデルの準

          LM Studioでマルチモーダルを使ってみる

          AIは何を考えているんだ?をアップルシード(士郎政宗)は38年前に見越していた

           ChatGPTやGeminiなど大規模AIに学習させて予想だにしない素晴らしい結果がでていますよね  でもどうしてそのような結果が出るかがよくわかんない、というのを漫画家の士郎政宗さんが38年以上前にアップルシードという漫画の題材にしていました  アップルシードの2巻の途中のコマです  ガイアという法を執行し人類に貢献するために作られた巨大AIが、これまた人類をサポートするバイオロイドを駆逐しようとするお話  そのバイオロイドは人間に酷似していて見分けがつきませんが思考

          AIは何を考えているんだ?をアップルシード(士郎政宗)は38年前に見越していた

          M2 SSDにしたぜっ

           Stable Cascadeなる新しい画像生成がgithubで公開されました  生成速くて綺麗さも上らしいんですがVRAMが20GByte必要なんだとか。RTX4070ti super 狙ってたんですけど16Gbyteだからダメじゃん。  でもってバレンタインの今日はドル円爆安で151円に届きそう。  macなら64GByteもVRAMあるけどPyTorch 遅いしなぁ。cuda特化してるから仕方ないけど。  ここでRTX4090買ってもStable Cascade動作させ

          M2 SSDにしたぜっ

          MacでローカルAI。LM Studioで童話

           MacでLLMを動作させるのに色々苦労してきましたが、最近ではもっぱらLM Studio を使っています。(執筆時点のバージョンは 0.2.12)  日本でも東工大と産総研が作ってくれた日本語に特化した巨大モデルSwallowがあります。  なんと13B(130億パラメータ)と70B(700億パラメータ)ですよ!  もちろん素のモデル状態ではデカすぎ & 計算量多すぎでローカルなんかでは動作できないんですがbit数をドカーンと4bitに落としてもだいたいオッケーな感じで動

          MacでローカルAI。LM Studioで童話

          LCMはComfyUIでStableDiffusionの層コントロールに最適かも?

          単体利用よりも組み合わせか? 「M3 Ultra欲しくなってきた」で最後にチョロっと書いた 0.1秒で描画が終わる 推論型の画像生成 LCMですが、よく考えたら層が少なすぎて ControlNet みたいに途中でチョイチョイチャチャを入れて画像を作り上げていく、という手法は取りづらそう 以下の記事の動画で自分をリアルタイム美少女化  LCMを使って(ほぼ)リアルタイム変換して動画に」で紹介されてるけど、逆にこれは第一層でほぼ全てが完結してしまう懸念。  下書きとして人

          LCMはComfyUIでStableDiffusionの層コントロールに最適かも?

          M3 Ultra欲しくなってきた

          今回は日記  私はMBP M1 Max + 64GByteメモリーを使ってます。  LLMとか動作させると、7Bは楽勝、13Bだとチャット数回分くらいかな。  世の中のフリーのAIのモデルはTensorFlowとかTourchを使ってるので Apple Siliconだと互換性を取るために能力の半分以下、メモリーを倍くらい使うっぽいんですよね。  なのでRTXシリーズで言えば VRAM 32GByte弱ってところ。   M3 ダイナミックキャッシング期待  M3 Ma

          M3 Ultra欲しくなってきた

          Stable Diffusion XL 1.5.1 をmacで動作させてみる

          なんかもうググると、広告目当てなのかくだらない説明が多くて辟易したので自分メモを残します AUTOMATIC1111 1.5.1 を使う分には特段難しいことはないようです。 出る絵が素晴らしいという事もないようです… 今までの環境にgit pull してはいけない!  絶対に何かが壊れて、謎のエラーが沢山でます。いままでの環境とは分け て作りましょう。  mac OSのAPFSは優秀なので同じファイルをコピーしても容量をくいませんので、モデルやVAEはガンガンコピーしま

          Stable Diffusion XL 1.5.1 をmacで動作させてみる

          StableDiffusionでQRコードを作る

           StableDiffusion + ControlNet Tileを使うとQRコードをベースに画像が作れると聞いて試してみました。  ほとんどの場合うまくいきませんが(笑)  あとQRコードを読みとる機械の性能にもよると思います。  iPhone12でギリギリ読めるあたりの絵をご紹介します。 読み取りにはコツがいる  二律背反なんですが絵を重視すると読み取りづらいQRコードになります。  といって読み取りやすいのは汚いんだよぉぉ。 まずは読み取りづらいけど、絵として成

          StableDiffusionでQRコードを作る

          OpenPose + Controlnet失敗例

           この手の記事はすばらしい絵が生成されて「大成功!」が多いんですが..  自分は失敗ばかりしているので2度目は許さん、と自戒の念を込めて記録に残します。  元々OpenPoseは CMU-Perceptual-Computing-Lab が開発したもので、人体の可動域を学習させたAIから高速で推測させるプログラムです。その速度はスマホで動画からポーズを推定するほど高速です。  色分けは左右の色を認識するためにつけられています。 ControlNetのポーズは白黒で判定

          OpenPose + Controlnet失敗例

          Stable Diffusionで部屋を作る その3 Unity Shaderも投入

          結論から書きますと、時刻で生成するには自分のプロンプト力が足りませんでした(笑 前回からの言い訳 部屋はフォトグラメトリーして3Dで作る方針へ、といったな。あれは嘘だ。 いまだ決定打に至らずだけど、健忘録として書く。何かメモしておくと夜中寝てる時にハッと気づいたりするじゃん? フォトグラメトリーにするには四方八方から撮った写真が必要  1枚の写真から深度を推測するのはControlNet のDepthプリプロセッサーでもできるんだけど、所詮推測なわけで変なところが出

          Stable Diffusionで部屋を作る その3 Unity Shaderも投入

          Stable Diffusionの影のテストで絶望した

          前回の続き 前回はこちら  この記事は先週からStableDiffusionってなんじゃらほい、と始めた素人の思い込み100%でできてます。 生成絵は綺麗だけど雑  前回は自分の書いたヘボ絵からtxt2imgとControlNetのMobel → scribbleを使って美しいベッドや家具が配置された画像を生成、さらにその生成画像から同じくControlNetのPreprocessor → LineArt-Standard でヘボ絵を無かったことにしました。  ノベルゲー

          Stable Diffusionの影のテストで絶望した