帮助中心 广告联系

成都百姓网-人才网,招聘网,二手房网,房产网,租房网,教育网,新闻网,信息网,信息港-成都在线

热门关键词:

一文带你理解Q-Learning的搜索策略掌握强化学习最常用算法(2)

来源:原创/投稿/转载 发布时间:2019-08-09

  这种界限方法是目前最常用的,基于这种界限后面也有许多改进工作,包括UCB-V,UCB*,KL-UCB,Bayes-UCB和BESA[4]等。

  下面给出经典UCB算法的Python实现,及其在Q-Learning上的应用效果。

  UCB搜索算法应该能很快地获得高额奖励,但是前期搜索对训练过程的影响较大,有希望用来解决更复杂的多臂******机问题,因为这种方法能帮助智能体跳出局部最优值。

  Q-Learning是强化学习中最常用的算法之一。在这篇文章中,我们讨论了搜索策略的重要性和如何用UCB搜索策略来替代经典的ε-greedy搜索算法。

  更多更细致的优先策略可以被用到Q-Learning算法中,以平衡好利用和探索的关系。

本网转载作品的目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。如涉及作品内容、版权等问题,请联系我们进行修改或删除!