マガジンのカバー画像

強化学習入門

107
強化学習関連のノートをまとめました。
運営しているクリエイター

記事一覧

最近話題になった AIエージェントの強化学習環境 のまとめ

最近話題になった AIエージェントの学習環境 をまとめました。 1. MineDojo「MineDojo」は、M…

npaka
1年前
25

MuJoCo Unityプラグインの使い方

「MuJoCo Unityプラグイン」の使い方をまとめました。 1. MuJoCo「MuJoCo」(Multi-Joint dyna…

npaka
1年前
12

PettingZoo 入門 (2) - API

「PettingZoo」のAPIについてまとめました。 前回1. 学習環境の初期化「PettingZoo」の使い方…

npaka
1年前
5

Stable Baselines 3 入門 (2) - Monitor

「Stable Baselines 3」の「Monitor」の使い方をまとめました。 前回1. Monitor「Monitor」は…

npaka
1年前
5

PettingZoo 入門 (1) - マルチエージェント強化学習環境セット

マルチエージェント強化学習環境セット「PettingZoo」の基本的な使い方をまとめました。 1. P…

npaka
1年前
7

Stable Baselines 3 入門 (1) - 強化学習アルゴリズム実装セット

強化学習アルゴリズム実装セット「Stable Baselines 3」の基本的な使い方をまとめました。 1.…

npaka
1年前
8

DeepMindのAlphaシリーズまとめ

DeepMindのAlphaシリーズをまとめました。 1. AlphaGo 「AlphaGo」はDeepMindによって開発されたコンピュータ囲碁プログラムです。ハンディキャップなしで囲碁のプロ棋士を破った初めてのゲーム人工知能になります。2017年5月に人類最強棋士と呼ばれるカ・ケツ九段に勝利しました。 2. AlphaGo Zero2017年10月、DeepMind は「AlphaGo」の新バージョン「AlphaGo Zero」を発表しました。「AlphaGo Zer

toio 入門 (3) - 人工知能によるキューブの操作

「Unity ML-Agents」と「toio SDK for Unity v1.4.0」を使って、人工知能でtoioキューブを操作…

npaka
2年前
8

Petoi Bittle 入門 (20) - OpenCat Gymによる強化学習

以下の記事を参考に書いてます。 ・Reinforcement Learning - OpenCat Gym 前回1. ロボット…

npaka
2年前
3

AndroidEnv: Androidの強化学習環境

以下の記事を参考に書いてます。 ・AndroidEnv: The Android Learning Environment | DeepMin…

npaka
2年前
1

Stable Baselines と Raspberry Pi によるホッケーロボットの強化学習

「AI・人工知能EXPO 2020 【秋】」の「ギリア」ブースにて、「Stable Baselines」 と「Raspber…

npaka
2年前
20

Unity ML-Agents と toio によるサッカーロボットの強化学習

「AI・人工知能EXPO 2021 【春】」の「ギリア」ブースにて、「Unity ML-Agents」 と「toio」に…

npaka
3年前
39

dm_hard_eight:DeepMind HardEightタスクスイート

以下の記事を参考に書いてます。 ・dm_hard_eight: DeepMind Hard Eight Task Suite 1. 概要…

npaka
3年前
3

オフライン強化学習における未解決の課題への取り組み

以下の記事を参考に書いてます。 ・Tackling Open Challenges in Offline Reinforcement Learning 1. はじめにここ数年にわたっての、「ゲームプレイ」と「ロボット制御」での成功によって、「強化学習」への関心が高まっています。 1度収集した大量のデータセットから学習する「教師あり学習」とは違い、「強化学習」は試行錯誤のフィードバックループから学習します。このループは学習中にアクティブな相互作用を必要とし、新しいポリシー