やっほー (/・ω・)/
今日も新しい技術(おもちゃ)をみつけたので見ていくのだ( ・ω・)
本日はこちら(/・ω・)/
Google DeepMind さんの TAPIR という新しい Tracking Any Point (TAP) のモデルでござるな( ・ω・)
とりあえず TAPIR の Abstract を DeepL 先生に翻訳を依頼
ふむ( ・ω・)
とりあえず ChatGPT 先生に URL 渡して教えてもらうかな
以下は論文とかの情報を基に ChatGPT 先生との対談を書いてるだけなので完全信用しちゃだめだぞ☆
気になる人は論文をちゃんと読んでね☆
教えて ChatGPT 先生!
何をするための技術なの?( ・ω・)
これまでも似たようなことは出来てたけど、その精度と速度が向上した技術ってこと?( ・ω・)
TAPIR の登場前は何が問題だったのかしら?( ・ω・)
それに対してどうやって改善したの?( ・ω・)
マッチングステージについて教えて( ・ω・)
つまり動画から検知したい対象を推論してその後のトレース可能にするって、こと?( ・ω・)
リファインメントステージについて教えて( ・ω・)
つまりマッチングステージで得られた検知をしたい対象に関連しないものを探し出してきれいにするって、こと?( ・ω・)
んじゃ TAPIR が並列推論をできる理由を教えて( ・ω・)
でも、TAPIR が各フレームを並列推論できるといっても、結局は過去のフレーム処理が完了するまで新規フレームの処理が完了できないんじゃないの?( ・ω・)
今までは過去フレームが完全に完了するまで待つ必要があったけど、その待ち時間の減少に成功しただけってこと?( ・ω・)
んじゃ、シュッとまとめて( ・ω・)
ということで論文をちゃんと読んだわけじゃないけどとりあえず概要はシュッとわかったきがするのである( ・ω・)
遊びたい人は Google Colab のデモとかあるから遊んでみてね☆
(リアルタイム検知とそうじゃないタイプがあって両方動かしてみたけど、無料枠でやるならリアルタイムの方は GPU メモリ的に難しそう)
では気が済んだのでおしまい。