予測ベースの報酬による強化学習でAIが高難易度の死にゲーで人間以上のハイスコアをたたき出す - GIGAZINE

予測ベースの報酬による強化学習でAIが高難易度の死にゲーで人間以上のハイスコアをたたき出す - GIGAZINE:

予測ベースの報酬による強化学習でAIが高難易度の死にゲーで人間以上のハイスコアをたたき出す - GIGAZINE

予測ベースの報酬による強化学習でAIが高難易度の死にゲーで人間以上のハイスコアをたたき出す - GIGAZINE

AIの非営利研究機関として設立されたOpenAIが開発したRandom Network Distillation(RND)は、好奇心に基づき環境を探索させることで強化学習エージェントを学習させるという、予測をベースとした方法です。OpenAIはこのRNDを用いて、ゲーム「Montezuma's Revenge」における人間の平均的なスコアを上回るスコアをたたき出...

はてなブックマーク - 予測ベースの報酬による強化学習でAIが高難易度の死にゲーで人間以上のハイスコアをたたき出す - GIGAZINE はてなブックマークに追加

コメント

このブログの人気の投稿

投稿時間:2021-06-17 05:05:34 RSSフィード2021-06-17 05:00 分まとめ(1274件)

投稿時間:2021-06-20 02:06:12 RSSフィード2021-06-20 02:00 分まとめ(3871件)

投稿時間:2020-12-01 09:41:49 RSSフィード2020-12-01 09:00 分まとめ(69件)