Appleが、限られたメモリ容量における効率的な大規模言語モデルの推論に関する論文をarxivにて発表しました。
本論文は、大規模言語モデル (LLM) が抱えるメモリ不足問題を解決する方法を提案しています。提案手法は、モデルパラメータをフラッシュメモリに格納し、必要に応じて DRAM に読み込むことで、制限された DRAM 容量でも効率的に LLM を実行することを可能にします。
モバイルデバイス等のDRAM 容量が限られたデバイスにおいて、効果的なアプローチとなることが期待されます。
以下は、当該論文のアブストラクトです。