Stable Baselines 2.9.0 の変更点
「Stable Baselines 2.9.0」の変更点は、「VecEnv」の自動ラッピング、環境チェッカーなど、ツールの使いやすさのための更新がメインになります。
1. 重大な変更
◎ seed引数はlearn()からモデルコンストラクタに移動しました。
◎ Monitorラッパーのallow_early_resetsのデフォルトがTrueになりました。
◎ make_atari_env()がデフォルトでDummyVecEnvを返すようになりました(SubprocVecEnvの代わりに)。パフォーマンスが向上します。
◎ mode / sample関数がCategoricalProbabilityDistribution / MultiCategoricalProbabilityDistributionでtf.int64のテンソルを返すようにし、型の不整合が起きないようにしました。
2. 新機能
◎ モデルのコンストラクタに「n_cpu_tf_sess」を追加して、Tensorflowが使用するスレッドの数を選択できるようになりました。
◎ 環境をモデルのコンストラクタに渡す時、必要に応じて「DummyVecEnv」で自動的にラップされるようになりました。
◎ VecEnvの作成を簡素化する「stable_baselines.common.make_vec_env」ヘルパーが追加されました。
◎ モデルの評価を簡素化する「stable_baselines.common.evaluation.evaluate_policy」ヘルパーが追加されました。
◎ 「VecNormalize」の変更。
・pickledとunpickledのサポートが追加されました
・normalize_obs(obs)およびnormalize_reward(rews)が追加されました。統計更新せずに任意の観察または報酬に正規化を適用します。
・get_original_reward()が追加されました。最新のタイムステップからの正規化されていない報酬を返します。
・reset()が観察統計を収集するようになりました。正規化を適用するために使用されます。
◎ パラメータ「exploration_initial_eps」がDQNに追加されました。
◎ 型チェックとPEP 561準拠が追加されました。
◎ DDPG、TD3、およびSACは、非対称行動空間を利用できるようになりました。
◎ check_env util()が追加されました。カスタム環境がgymインターフェースに従っているかどうかを確認できます。
この記事が気に入ったらサポートをしてみませんか?