npaka

プログラマー。iPhone / Android / Unity / ROS / AI …

npaka

プログラマー。iPhone / Android / Unity / ROS / AI / AR / VR / RasPi / ロボット / ガジェット。年2冊ペースで技術書を執筆。アニソン / カラオケ / ギター / 猫 twitter : @npaka123

マガジン

  • 自然言語処理入門

    自然言語処理関係のノートをまとめました。

  • AIリリース年表

    AIリリース年表をまとめました。

  • AR・VR・MR入門

    AR・VR・MR関連のノートをまとめました。

  • iOS・Androidアプリ開発入門

    iOSとAndroidのアプリ開発関連のノートをまとめました。

  • 強化学習入門

    強化学習関連のノートをまとめました。

最近の記事

  • 固定された記事

『OpenAI GPT-4V/ChatGPT/GPTs 人工知能プログラミング実践入門』 が発売になりました。

『OpenAI GPT-4V/ChatGPT/GPTs 人工知能プログラミング実践入門』が発売になります。技術アップデートが早すぎることもあり、PDFおよびamazonプリント・オン・デマンド と Kindle での販売になります。 この本は、「GPT-4V」「ChatGPT」「GPTs」を活用して人間の仕事をサポートする「チャットAI」を開発するための入門書です。 2023年11月の「OpenAI API」の大型アップデートに対応しています。 対象読者は、 ・チャットA

    • Google Colab で EasyAnimate を試す

      「Google Colab」で「EasyAnimate」を試したのでまとめました。 1. EasyAnimate「EasyAnimate」は、高解像度で長い動画を生成するためのエンドツーエンドのソリューションです。transformerベースの拡散発生器を学習し、長い動画を処理するためのVAEを学習し、メタデータを前処理することができます。 Soraのような構造とDITに基づいて、動画生成用のdiffuserとしてtransformerを使用しています。モーションモジュー

      • Google Colab で ToonCrafter を 試す

        「ToonCrafter」を試したので、まとめました。 1. ToonCrafter「ToonCrafter」は、事前学習されたImage-to-Videoの拡散事前確率を利用して、2つのアニメ画像を補間します。 ・ショーケース (512x320) ・スパーススケッチガイダンス 動いてる様子は公式ページ参照。 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) 「camenduru/ToonCrafter-jupyter」のColabノート

        • Gemini 1.5 の JSONモードを試す

          Gemini 1.5 のJSONモードを試したので、まとめました。 1. JSONモード「JSONモード」は、LLMの出力をJSON形式に強制するためのモードです。「gemini-1.5-pro」「gemini-1.5-flash」で利用可能です。 さらに、「gemini-1.5-pro」は「制約付きデコード」をサポートします。これにより、推論時にスキーマオブジェクト (または同等のPython型) を渡すことができ、出力はそのスキーマに厳密に従います。 2. JSON

        • 固定された記事

        『OpenAI GPT-4V/ChatGPT/GPTs 人工知能プログラミング実践入門』 が発売になりました。

        マガジン

        • 自然言語処理入門
          765本
        • AIリリース年表
          11本
        • AR・VR・MR入門
          90本
        • iOS・Androidアプリ開発入門
          64本
        • 強化学習入門
          109本
        • Unity入門
          149本

        記事

          Gemini 1.5 Pro・Flash のGAリリースとAPIアップデート

          Gemini 1.5 Pro・Flash のGA(安定版)リリースとAPIアップデートについてまとめました。 1. Gemini 1.5 Flash および 1.5 Pro の安定版リリースと使用料金無料枠に加えて、開発者は本日より、Google AI Studio で課金アカウントを有効にすることで、より高いAPI レート制限を解除できるようになります。 Gemini 1.5 の使用料金の詳細については、「Gemini APIの料金」を参照してください。 2. Gem

          Gemini 1.5 Pro・Flash のGAリリースとAPIアップデート

          3D Gaussian Splatting のリリース年表

          「3D Gaussian Splatting」(3DGS) の主な製品のリリースをまとめました。 2023年7月 3D Gaussian Splatting for Real-Time Radiance Field Rendering 8月18日 Dynamic 3D Gaussians 9月27日 Gaussian Splatting playground in Unity 9月19日 3D Gaussian Plugin (Unreal Engine) 9月28

          3D Gaussian Splatting のリリース年表

          HuggingFace Diffusers v0.28.0の新機能

          「Diffusers v0.28.0」の新機能についてまとめました。 前回 1. Diffusers v0.28.0 のリリースノート情報元となる「Diffusers 0.28.0」のリリースノートは、以下で参照できます。 2. Marigold「Marigold: Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation,」で提案された「Marigold」では、単眼深度推定のた

          HuggingFace Diffusers v0.28.0の新機能

          React Native のコンポーネントの使い方

          「React Native」のコンポーネントの使い方をまとめました。 前回1. 関数コンポーネント「関数コンポーネント」は、JavaScriptの関数として定義するコンポーネントです。ステートやライフサイクルメソッドを使用するためにはReactのフックを利用します。 親コンポーネントからのパラメータは、propsで受け取ります。 import React from 'react';import { View, Text } from 'react-native';//

          React Native のコンポーネントの使い方

          Gemini API で 動画の質問応答 を試す

          「Gemini API」で動画の質問応答を試したので、まとめました。 1. Gemini 1.5 Pro の 動画データ入力「Gemini 1.5 Pro」で動画データでの入力が可能になりました。 サポートしているファイル形式は、次のとおりです。 「File API」は動画を1フレーム/秒(FPS)でサンプリングしますが、最適な推論品質を提供するために変更される可能性があります。解像度や品質に関係なく、個々の画像は258トークンを使用します。 2. 動画の質問応答動画の

          Gemini API で 動画の質問応答 を試す

          Phi-3-vision ・ Phi-3-medium ・ Phi-3-small の概要

          以下の記事が面白かったので、簡単にまとめました。 1. Phi-3「Phi-3」は、最も有能で費用対効果のSML (Small Language Model) であり、さまざまな言語、推論、コーディング、数学のベンチマークで同じサイズと次のサイズのモデルを上回っています。Tiny but mighty: The Phi-3 Small Language Modelsで説明されているように、「Phi-3」は高品質の学習データで学習されています。 2. Phi-3 のモデル一

          Phi-3-vision ・ Phi-3-medium ・ Phi-3-small の概要

          LangChain v0.2 の パッケージ構成

          「LangChain v0.2」のパッケージ構成についてまとめました。 1. LangChain v0.2 の パッケージ構成「LangChain」のフレームワークは、複数のパッケージで構成されています。 2. langchain-core「langchain-core」には、様々なコンポーネントの基本抽象化と、それらを一緒に構成する方法が含まれています。「LLM」「VectorStore」「Retriever」 などのコアコンポーネントのインターフェイスはここで定義され

          LangChain v0.2 の パッケージ構成

          LangChain v0.2 で エージェントを構築

          「LangChain v0.2」で エージェントを構築してみます。 前回1. LangChainのセットアップ(1) パッケージのインストール。 # パッケージのインストール!pip install langchain!pip install langchain-openai!pip install langchain_community!pip install langgraph!pip install faiss_cpu (2) 環境変数の準備。 左端の鍵アイコンで

          LangChain v0.2 で エージェントを構築

          LangChain v0.2 で RAGを構築

          「LangChain v0.2」でRAGを構築してみます。 前回1. LangChainのセットアップ(1) パッケージのインストール。 # パッケージのインストール!pip install langchain!pip install langchain-openai!pip install langchain-chroma (2) 環境変数の準備。 左端の鍵アイコンで「OPENAI_API_KEY」を設定してからセルを実行してください。 import osfrom

          LangChain v0.2 で RAGを構築

          LangChain v0.2 で チャットボットを構築

          「LangChain v0.2」で チャットボットを構築してみます。 前回1. LangChainのセットアップ(1) パッケージのインストール。 # パッケージのインストール!pip install langchain!pip install langchain-openai!pip install langchain_community (2) 環境変数の準備。 左端の鍵アイコンで「OPENAI_API_KEY」を設定してからセルを実行してください。 import

          LangChain v0.2 で チャットボットを構築

          LangChain v0.2 で 単純なLLMアプリケーションを構築

          「LangChain v0.2」で 単純なLLMアプリケーションを構築してみます。 1. LangChainのセットアップ(1) パッケージのインストール。 # パッケージのインストール!pip install langchain!pip install langchain-openai (2) 環境変数の準備。 左端の鍵アイコンで「OPENAI_API_KEY」を設定してからセルを実行してください。 import osfrom google.colab import

          LangChain v0.2 で 単純なLLMアプリケーションを構築

          LangChain のユースケース

          「LangChain」 のユースケースをまとめました。 1. RAGのQA「RAGのQA」は、RAG技術を使用して、特定の情報源に関する質問に回答するチャットボットを構築します。RAGは、ユーザーの質問に応じて適切な情報を検索し、それをLLMのプロンプトに組み込むことで、LLMの知識を強化します。具体的には、ドキュメントと読み込み、チャンクに分割して、インデックスを作成した後、ユーザーの入力に基づいて関連するデータを検索し、回答を生成します。 2. 情報抽出「情報抽出」は

          LangChain のユースケース