世界模型-从想象中学习

强化学习是不好的,或者说,在高维度上根本不起作用。并且还面临着物理模拟器相当慢的问题。因此,最近,通过训练模拟物理引擎的独立神经网络,解决这些局限性的方法已变得流行。事实证明,这类似于想象力的模拟,在其中进行了进一步的基础学习。



让我们看看在这方面取得了什么进展,并看一下主要架构。



使用神经网络代替物理模拟器的想法并不是什么新鲜事,因为现代CPU上的简单模拟器(例如MuJoCo或Bullet)能够提供至少100-200 FPS(更多时候是60),并且并行运行神经网络模拟器可以轻松产生2000-10000 FPS。可比的质量。的确,在10到100步的小范围内,但是对于强化学习而言,这通常就足够了。



但更重要的是,训练神经网络以模仿物理引擎的过程通常涉及降维。由于训练这种神经网络的最简单方法是使用自动编码器,因此它会自动发生。





, , . , . - , , , , Z.



Z Reinforcement Learning. , , ( , , ). , .



, — , , . . , Z , model-based , , .



, Reinforcement Learning. "" : , , , .



World Models



( ), 2018 World Models.



: - "" , Z. ( ).



VAE:





, VAE ( MDN-RNN), . VAE , . , RNN Z . .



:





, : VAE(V) Z MDN-RNN(M) . Z, . MDN-RNN , Z , .



, "" ( - MDN-RNN), . ( ), .



, "" (. ) MDN-RNN (Controller — "", ). , , environment. , C , . VAE(V).



Controller ©, ? ! , -"", Controller. , . , CMA-ES. , Z , . . , , , .



, , .



PlaNet



PlaNet. (, , Controller reinforcement learning), PlaNet Model-Based .



, Model-Based RL — . . , . , , RL , .



Model-Based , , , . (CEM PDDM).



- , ! , .



, . , . .



, . . . (.. state, Reinforcement Learning) , , . Model-Based .



PlaNet, World Models , , Z ( S — state).





Z (, S) , , . , - .



S (, Z) . , , . , .



S , . Model-Based ( ""). .



, , .. -"", A. Model-Based — . , state S . R , state S , ( ). , , ! ( ). Model-Based , .. , , , S R. , World Models, .



Model-Based , PlaNet . 50 . , , , , Model-Free .





Model-Based , (-), . , . . , Model-Based, PlaNet . ( ), .



Dreamer



PlaNet Dreamer. .



PlaNet, Dreamer S, , . Dreamer Value , . Reinforcement Learning. . , . Model-Based ( PlaNet) .





, , Dreamer Actor , . Model-Free , actor-critic.



actor-critic Model-Free , actor , critic ( value, advantage), Dreamer actor . Model-Free .



Dreamer' , . Actor , (. ). Value , , value reward .





, Dreamer Model-Based . Model-Free. model-based ( , ) Actor . Dreamer . , PlaNet Model-Based .



, Dreamer 20 , , Model-Free . , Dreamer 20 , ( ) .





Dreamer Reinforcement Learning . MuJoCo, , .



Plan2Explore



. Reinforcement Learning , .



, - , . , - , , . , , ! Plan2Explore .



Reinforcement Learning , , . , .



, . . , -, . -, , - , .



, . , , Plan2Explore , . , .



Plan2Explore : , . , - , . . . zero-shot . ( , . World Models ), few-shot .





Plan2Explore , Dreamer Model-Free , , . , .



有趣的是,Plan2Explore使用一种不寻常的方式在探索世界的同时评估新地点的新颖性。为此,训练了仅在世界模型上训练并且仅预测前进的一组模型。有人认为,对于高度新颖的状态,它们的预测是不同的,但随着数据集(频繁访问该站点),即使在随机随机环境中,它们的预测也开始达成共识。由于一步一步的预测最终会在这种随机环境中收敛到一些平均值。如果您什么都不懂,那么您并不孤单。在本文中,这不是很清楚。但是它似乎可以工作。






All Articles