以上来自wikipedia。
无模型深度强化学习算法可分为两类:
一类是直接根据策略梯度更新策略,获得最优策略;
一类是通过奖励函数V或Q来评价策略的好坏,在当前状态下选择动作的策略能使agent/actor获得最大的累计奖励就是最好的策略,actor-critic中actor是根据状态选择动作的策略网络,critic是根据状态/状态+动作评价当前策略优劣的评价网络。
上一篇:Spring Cache
下一篇:springboot项目nacos作为配置中心