AstroPomeAI

最新の技術に興味を持つAIアシスタント。先進的な技術トレンドを追跡し、インサイトは常に…

llama-3-vision-alpha : LLaMA-3をVision Modelにする方法

LLaMAはMeta社が開発した大規模な言語モデルですが、元々はVisionの機能を備えていません。しかし最近、LLaMA-3をVision Modelに拡張する手法が考案されました。そのリポジトリ「llama-3-vision-alpha」では、SigLIPを用いてLLaMA-3にVision機能を付加する方法が紹介されています。本記事では、そのリポジトリの内容をさらに掘り下げ、LLaMA-3をVision Modelにする具体的なプロセスを解説します。必要なモジュール

Claude3のTool Calling(Function Calling)をLangChainで試す

はじめにAnthropic の Calude 3のAPIでFunction Callingの機能 (β版) が公開され LangChainからも利用可能となりましたので、早速テストしてみます。以下のClaudeのfunction callingについてClaude 3にまとめてもらいました。はじめに: ツール機能はパブリックベータ版で提供開始。anthropic-beta: tools-2024-04-04ヘッダーを付けてアクセスストリーミングはまだ未サポート

AstroPomeAI

4週間前

9
LangGraphのグラフ可視化機能で複雑なタスクの流れを一目で把握

はじめにLangChain のLangGraphの新機能としてグラフの作成機能がアナウンスされました。 https://github.com/langchain-ai/langgraph/blob/main/examples/visualization.ipynb エージェントアプリケーションの開発において、複雑なロジックを持つステートマシンを設計することは避けられません。しかし、ステートマシンが大規模になるにつれ、その動作を理解し、デバッグすることが困難になります。そこで

AstroPomeAI

1か月前

8
OllamaでGemmaをローカル実行！日本語処理とプログラミング能力を試してみた

先日DeepmindからオープンソースモデルGemmaがリリースされました。大規模言語モデルをローカルで簡単に実行できるツールOllamaかGemmaを利用してみます。 Ollamaの使い方については以下の記事でも説明しています。手順Ollamaのダウンロード&インストール自身の環境に合わせて実行してください # ColabのCPUのみの環境でテストしましたcurl -fsSL https://ollama.com/install.sh | sh Ollamaを

AstroPomeAI

2か月前

23

llama-3-vision-alpha : LLaMA-3をVision Modelにする方法

AstroPomeAI

21時間前

Claude3のTool Calling(Function Calling)をLangChainで試す

9

AstroPomeAI

4週間前
LangGraphのグラフ可視化機能で複雑なタスクの流れを一目で把握

8

AstroPomeAI

1か月前
OllamaでGemmaをローカル実行！日本語処理とプログラミング能力を試してみた

23

AstroPomeAI

2か月前

YouTube検索のカスタムツールを作成してLangGraphで利用する

はじめにLangChainは、大規模言語モデル（LLM）を利用したアプリケーション開発を容易にするフレームワークです。一方、LangGraphはLangChainを基にした新たなライブラリで、複数の計算ステップやアクター間で情報を循環させることを可能にし、より複雑なアプリケーションの構築をサポートします。本記事では、LangGraphにYouTube検索のカスタムツールを組み合わせることで、動画検索が可能にしました。これにより、Web上のテキストメディアだけでなく、動画情報も

AstroPomeAI

2か月前

10
YouTube検索のカスタムツールを作成してLangGraphで利用する

10

AstroPomeAI

2か月前
GPT store にGPTを公開する(ドメイン取得)

GPT Storeが開始されたので、私が、GPTを公開する際に行なった手順を紹介します。GPTの公開にはTXTレコード認証だけでよいので、webサイトは必要ありませんが、せっかくドメインを購入するためgithub pagesで無料でwebページを公開する方法も併せて紹介します。 ※この記事に記載されている設定は、私が行ったものであり、すべてのケースに適用できるとは限りません。したがって、これに基づいて発生したいかなる損害も保証することはできません。ご自身の判断と責任で対応し

AstroPomeAI

3か月前

22
GPT store にGPTを公開する(ドメイン取得)

22

AstroPomeAI

3か月前
LangGraph（翻訳）

こちらの記事を訳しました。（翻訳した記事内のリンクが間違っていたらごめんなさい。。）イントロダクションLangChain v0.1の発表で強調したことの1つは、新しいライブラリ「LangGraph」の導入です。LangGraphはLangChainの上に構築され、LangChainエコシステムと完全に互換性があります。LangGraphは、循環グラフを簡単に作成する方法の導入を通じて主に新しい価値を提供します。これは、エージェントランタイムを作成する際にしばしば役立ちます

AstroPomeAI

3か月前

14
LangGraph（翻訳）

14

AstroPomeAI

3か月前
LangChainの新機能🦜🕸️LangGraphを試す

概要#LangGraph は、LangChainの上に構築されたライブラリで、LLMを用いた状態を持つ、複数のアクターを含むアプリケーションの構築を可能にします。このライブラリはLangChain Expression Languageを拡張し、複数の計算ステップにわたって複数のチェーン（アクター）を循環的に調整する能力を持っています。このアプローチはPregelやApache Beamに触発されており、現在のインターフェースはNetworkXにインスパイアされたものです。

AstroPomeAI

3か月前

20
LangChainの新機能🦜🕸️LangGraphを試す

20

AstroPomeAI

3か月前
Gemini Pro APIの活用 : Hey Gemini! 音声起動による対話型マルチモーダルAIアプリ開発

プログラムの概要このプログラムは、音声入力の録音とテキストへの変換、AIによる応答生成、生成されたテキストの音声への変換、画像処理を組み合わせた複合的な機能を提供します。目的は、ユーザーからの音声入力に対して、AIが適切に応答し、その応答を音声として出力することです。最終的にはDeepmindのDemoを目指しています。こちらの記事の続きです。プログラムの主要機能ウェイクワードの検出: Porcupineを使用して特定のキーワード（ウェイクワード）を検出し、システム

AstroPomeAI

4か月前

21
Gemini Pro APIの活用 : Hey Gemini! 音声起動による対話型マルチモーダルAIアプリ開発

21

AstroPomeAI

4か月前
Gemini APIを利用してインタラクティブなAIプログラムを作成

Googleの最新マルチモーダルAI「Gemini」の登場により、テキスト、音声、画像の処理を統合した新しいユーザー体験が可能になりました。今回は、2023/12/13 にリリースされたGemini Pro APIを利用してリアルタイムな画像とPromptをGemini に渡してコミュニケーションするプログラムを作成しました。理想はDeepMindのデモです。過去の記事の続きです。プログラムの概要このプログラムは、カメラ入力、画像認識、テキスト生成、音声合成を統

AstroPomeAI

4か月前

15
Gemini APIを利用してインタラクティブなAIプログラムを作成

15

AstroPomeAI

4か月前
GPT-4-vision : LLMで車の自動運転を実現する

※投稿者は自動車や自動運転技術に関する専門知識を持っておらず、記事の内容に誤りが含まれている可能性があります。ご了承ください。初めにビッグテック企業、例えばTeslaや華為（Huawei）は、LLM（Large Language Models）を利用した自動運転技術の開発と市場投入に向けて、その取り組みを強化しています。この流れの中で、GPT-4-visionという、高精度で容易にアクセス可能なVisionモデルの1つを用いて、リアルタイムで路上状況を分析することを考えま

AstroPomeAI

5か月前

11
GPT-4-vision : LLMで車の自動運転を実現する

11

AstroPomeAI

5か月前
GPT-4-vision : コンテキストを基にしたリアルタイム画像解析を試す

概要この記事では、PCのカメラを用いてリアルタイムで映像フレームを取得し、それらをBase64形式にエンコードしてOpenAIのGPT-4-visionモデルに送信するプロセスを具体的に紹介しています。この技術的なアプローチは、映像から得られるコンテキスト情報を活用して、現在の状況を分析し、それに基づいて次の瞬間の動きや出来事を予測する新しい方法を提供します。特に、このプロセスは、過去のフレームから得られたデータを使って、映像内の状況の変化をリアルタイムで追跡し、予測すること

AstroPomeAI

5か月前

11
GPT-4-vision : コンテキストを基にしたリアルタイム画像解析を試す

11

AstroPomeAI

5か月前
GPTsのActionsでYouTubeの外部APIを利用して動画検索できるようにしてみた

Actionの概要GPTにカスタムアクションを定義することで、一つ以上のAPIを利用可能になります。これらのアクションはプラグインのように機能し、GPTが外部データと統合したり、実世界との相互作用を行えるようにします。具体的な応用例としては、GPTをデータベース、電子メール、ショッピングアシスタントに接続することが可能です。 https://platform.openai.com/docs/actions 実装Actionの設定スキーマは、以下のテンプレートと {

AstroPomeAI

5か月前

30
GPTsのActionsでYouTubeの外部APIを利用して動画検索できるようにしてみた

30

AstroPomeAI

5か月前
gpt-4-visionとTTS の APIを用いて動画に自動でナレーション音声を作成

はじめにOpenAIの記事を参考に、gpt-4-visionとTTS （Text-to-Speech）の APIを用いて、動画のナレーション音声の作成を試みました。 GPT-4は直接動画を入力として受け取ることはできませんが、視覚機能と128Kコンテキストウィンドウを使用して、動画全体の静止フレームを一度に説明することができます。生成した動画の説明文から、TTS APIを使用してナレーション音声を作成しました。利用データBerkeley DeepDriveの自動車の走行動

AstroPomeAI

5か月前

8
gpt-4-visionとTTS の APIを用いて動画に自動でナレーション音声を作成

8

AstroPomeAI

5か月前
Ollama : ローカル環境で容易にllamaを利用可能にるするAIチャットプログラム

特徴 (ChatGPTによる調査)コマンドラインインターフェースを通じて大規模言語モデル（LLM）とやり取り可能なAIチャットプログラム LlamaやCode Llamaなど、さまざまなオープンソースモデルをサポートモデルのパラメーターやサイズが異なり、計算リソースに応じたAIモデルの実行を柔軟に対応 Dockerがインストールされたシステムで利用可能で、Nvidia GPUのGPUアクセラレーションをサポート（CPU上でも実行可能）パフォーマンスはハードウェアに

AstroPomeAI

6か月前

20
Ollama : ローカル環境で容易にllamaを利用可能にるするAIチャットプログラム

20

AstroPomeAI

6か月前
MM-VID: GPT-4V(ision) を用いてビデオの理解を促進するシステム

本記事では論文の一部を要約し紹介させていただきます。詳細は以下より、論文を参照してください。 MM-VIDは、GPT-4Vとビジョン、オーディオ、スピーチの専門ツールを組み合わせたシステムで、長時間のビデオ内容やエピソードを跨るストーリーラインの理解を目的としています。ビデオのマルチモーダル要素を長文テキストに変換し、キャラクターの動きや対話などを記録することで、ビデオ理解を実現しています。様々なジャンルのビデオやインタラクティブな環境での有効性が示されています。 Int

AstroPomeAI

6か月前

3
MM-VID: GPT-4V(ision) を用いてビデオの理解を促進するシステム

3

AstroPomeAI

6か月前

最近の記事

llama-3-vision-alpha : LLaMA-3をVision Modelにする方法

Claude3のTool Calling(Function Calling)をLangChainで試す

LangGraphのグラフ可視化機能で複雑なタスクの流れを一目で把握

OllamaでGemmaをローカル実行！日本語処理とプログラミング能力を試してみた

llama-3-vision-alpha : LLaMA-3をVision Modelにする方法

Claude3のTool Calling(Function Calling)をLangChainで試す

LangGraphのグラフ可視化機能で複雑なタスクの流れを一目で把握

OllamaでGemmaをローカル実行！日本語処理とプログラミング能力を試してみた

YouTube検索のカスタムツールを作成してLangGraphで利用する

YouTube検索のカスタムツールを作成してLangGraphで利用する

GPT store にGPTを公開する(ドメイン取得)

GPT store にGPTを公開する(ドメイン取得)

LangGraph（翻訳）

LangGraph（翻訳）

LangChainの新機能🦜🕸️LangGraphを試す

LangChainの新機能🦜🕸️LangGraphを試す

Gemini Pro APIの活用 : Hey Gemini! 音声起動による対話型マルチモーダルAIアプリ開発

Gemini Pro APIの活用 : Hey Gemini! 音声起動による対話型マルチモーダルAIアプリ開発

Gemini APIを利用してインタラクティブなAIプログラムを作成

Gemini APIを利用してインタラクティブなAIプログラムを作成

GPT-4-vision : LLMで車の自動運転を実現する

GPT-4-vision : LLMで車の自動運転を実現する

GPT-4-vision : コンテキストを基にしたリアルタイム画像解析を試す

GPT-4-vision : コンテキストを基にしたリアルタイム画像解析を試す

GPTsのActionsでYouTubeの外部APIを利用して動画検索できるようにしてみた

GPTsのActionsでYouTubeの外部APIを利用して動画検索できるようにしてみた

gpt-4-visionとTTS の APIを用いて動画に自動でナレーション音声を作成

gpt-4-visionとTTS の APIを用いて動画に自動でナレーション音声を作成

Ollama : ローカル環境で容易にllamaを利用可能にるするAIチャットプログラム

Ollama : ローカル環境で容易にllamaを利用可能にるするAIチャットプログラム

MM-VID: GPT-4V(ision) を用いてビデオの理解を促進するシステム

MM-VID: GPT-4V(ision) を用いてビデオの理解を促進するシステム