LLMを使ったウェブクローラーの開発 - Part 2

2024年4月4日 00:09

こんばんは。今は深夜です。
noteのダッシュボードでアクセス解析をしていた所、以前書いたLLMを使ったウェブクローラーの開発の記事が一番人気なので、続きを書きます。

この頃開発している物で、H100などで動かしたアルゴリズムですが、変数としてLLMに「おもしろい」「有益」など少し抽象的な事を抽出させて、それから分ちをさせた後に検索エンジンやURLのデータベースに送り、ウェブクローラーを開始させると言うプログラムを作ろうとしています。
こちらに最初の部分を作ったのでリンクを貼っておきます(NVIDIAのH100を使用しています)。

この「おもしろい」や「有益」の度合いを数値化し、ランキングで優先度を判断し、将来的には量子コンピュータでウェブの有益なサイトを優先しながらウェブのグラフを辿っていくアルゴリズムを前から考えています。
大体構想ができているので、後はAWSのAmazon Braketをして実際に実装した後に計算させようと思います。
グラフのデータはneo4jあたりを使い、また軽量化するにはKVSを使うかもしれません。
AIに定量化の難しい感覚的な事を数値するアルゴリズムを一緒に作ってもらいたいとも思っています。
この頃流行っているエージェント(Agent)の事もとあるシリコンバレーの会社と今度ディスカッションをするので良いアイデアと良いパートナーシップが作れるかもしれません。

ではまた。

株式会社インスパイアサーチ

CEO / サーチエンジニア
加藤翼

この記事が気に入ったらサポートをしてみませんか？