予測ベースの報酬による強化学習でAIが高難易度の死にゲーで人間以上のハイスコアをたたき出す

予測ベースの報酬による強化学習でAIが高難易度の死にゲーで人間以上のハイスコアをたたき出す - GIGAZINE

- 11月 02, 2018

予測ベースの報酬による強化学習でAIが高難易度の死にゲーで人間以上のハイスコアをたたき出す - GIGAZINE:

予測ベースの報酬による強化学習でAIが高難易度の死にゲーで人間以上のハイスコアをたたき出す - GIGAZINE

AIの非営利研究機関として設立されたOpenAIが開発したRandom Network Distillation(RND)は、好奇心に基づき環境を探索させることで強化学習エージェントを学習させるという、予測をベースとした方法です。OpenAIはこのRNDを用いて、ゲーム「Montezuma's Revenge」における人間の平均的なスコアを上回るスコアをたたき出...