Lag-Llamaの紹介

sergicalsix

2024年2月24日 13:22

arXivリンク

https://arxiv.org/pdf/2310.08278.pdf

ひとこと要約

時系列データ予測用のLLaMAベースのデコーダーモデルの提案、ゼロショットとファインチューニングの両方で既存手法よりも高精度

メモ

トークン化と特徴量: データセットから時系列をトークン化する一般的な方法を導入し、任意の特定のデータセットの周波数に依存せず、テスト時に見られない周波数や既存の周波数の組み合わせを使用できるようにします。具体的には、過去の時系列値から構築されたラグ特徴量と、秒、分、時、日、週、月、四半期の各レベルの日付・時間特徴量を用いています。
アーキテクチャ: Lag-Llamaは、デコーダーのみのトランスフォーマーベースのアーキテクチャに基づいており、共変量ベクトルと時系列のトークンを連結し、共有線形投影層を通じて特徴量をアテンションモジュールの隠れ次元にマッピングします。このアーキテクチャは、RMSNormとRotary Positional Encodingを各アテンション層のクエリとキーの表現に組み込むことで、予測分布のパラメータを予測します。
分布ヘッドの選択: Lag-Llamaの最終層は、モデルの特徴を確率分布のパラメータに射影する分布ヘッドです。本研究では、Studentのt分布を採用し、自由度、平均、スケールの3つのパラメータを出力します。これは、より表現力のある分布選択の可能性を残しつつ、モデルをできるだけシンプルに保つための選択です。
値のスケーリング: トレーニング中、各時系列の数値の大きさが異なる可能性があるため、各単変量ウィンドウの平均値と分散を計算し、時系列を正規化します。これにより、モデルに入力の統計情報を提供するための要約統計も含まれます。
トレーニング戦略: 大規模コーパス上でLag-Llamaを事前トレーニングする際には、ストラティファイドサンプリングアプローチを採用し、データセットの総シリーズ数に基づいてサンプリングします。また、過学習を防ぐために時系列のデータ拡張技術を使用し、これらの拡張のハイパーパラメータをハイパーパラメータ探索の一部として検討します。

この記事が気に入ったらサポートをしてみませんか？