Quantcast
Channel: Yasuhiro Morioka(@morioka) - Twilog
Viewing all articles
Browse latest Browse all 2923

7月24日のツイート

$
0
0

RT @icoxfog417: エージェントのアンサンブルを取ることでモデルフリーの学習を安定させる研究。エージェントを個別に初期化、行動は各行動を各Q関数のmean+std(不確実性が高い行動を優先)で評価し決定、得られた軌跡は別個に使用し(マスクをかけ)学習するがstdの高い更新は抑制する。 arxiv.org/abs/2007.04938

posted at 00:10:48


Viewing all articles
Browse latest Browse all 2923

Trending Articles