見出し画像

Stable Baselines 2.9.0 の変更点

Stable Baselines 2.9.0」の変更点は、「VecEnv」の自動ラッピング、環境チェッカーなど、ツールの使いやすさのための更新がメインになります。

1. 重大な変更

◎ seed引数はlearn()からモデルコンストラクタに移動しました。

◎ Monitorラッパーのallow_early_resetsのデフォルトがTrueになりました。

◎ make_atari_env()がデフォルトでDummyVecEnvを返すようになりました(SubprocVecEnvの代わりに)。パフォーマンスが向上します。

◎ mode / sample関数がCategoricalProbabilityDistribution / MultiCategoricalProbabilityDistributionでtf.int64のテンソルを返すようにし、型の不整合が起きないようにしました。

2. 新機能

◎ モデルのコンストラクタに「n_cpu_tf_sess」を追加して、Tensorflowが使用するスレッドの数を選択できるようになりました。

◎ 環境をモデルのコンストラクタに渡す時、必要に応じて「DummyVecEnv」で自動的にラップされるようになりました。

◎ VecEnvの作成を簡素化する「stable_baselines.common.make_vec_env」ヘルパーが追加されました。

◎ モデルの評価を簡素化する「stable_baselines.common.evaluation.evaluate_policy」ヘルパーが追加されました。

◎ 「VecNormalize」の変更。
 ・pickledとunpickledのサポートが追加されました
 ・normalize_obs(obs)およびnormalize_reward(rews)が追加されました。統計更新せずに任意の観察または報酬に正規化を適用します。
 ・get_original_reward()が追加されました。最新のタイムステップからの正規化されていない報酬を返します。
 ・reset()が観察統計を収集するようになりました。正規化を適用するために使用されます。

◎ パラメータ「exploration_initial_eps」がDQNに追加されました。

◎ 型チェックとPEP 561準拠が追加されました。

◎ DDPG、TD3、およびSACは、非対称行動空間を利用できるようになりました。

◎ check_env util()が追加されました。カスタム環境がgymインターフェースに従っているかどうかを確認できます。


この記事が気に入ったらサポートをしてみませんか?