RT @icoxfog417: エージェントのアンサンブルを取ることでモデルフリーの学習を安定させる研究。エージェントを個別に初期化、行動は各行動を各Q関数のmean+std(不確実性が高い行動を優先)で評価し決定、得られた軌跡は別個に使用し(マスクをかけ)学習するがstdの高い更新は抑制する。 arxiv.org/abs/2007.04938
posted at 00:10:48
RT @icoxfog417: エージェントのアンサンブルを取ることでモデルフリーの学習を安定させる研究。エージェントを個別に初期化、行動は各行動を各Q関数のmean+std(不確実性が高い行動を優先)で評価し決定、得られた軌跡は別個に使用し(マスクをかけ)学習するがstdの高い更新は抑制する。 arxiv.org/abs/2007.04938
posted at 00:10:48