「MLX」で「Llama 3」を試したので、まとめました。
1. Llama 3
「Llama 3」は、Metaが開発したオープンモデルです。
2. 推論の実行
「MLX」は、Appleが開発した新しい機械学習フレームワークで、「Apple Silicon」(M1/M2/M3など) を最大限に活用するように設計されています。
推論の実行手順は、次のとおりです。
(1) Pythonの仮想環境の準備。
今回は、「Python 3.10」の仮想環境を準備しました。
(2) パッケージのインストールと実行。
今回は「mlx-community/Meta-Llama-3-8B-Instruct-4bit」のモデルを利用します。
pip install mlx-lm
mlx_lm.generate --model mlx-community/Meta-Llama-3-8B-Instruct-4bit --prompt "Who is the cutest in Madoka Magica?" --temp 0.0 --max-tokens 512