帮助中心广告联系

热门关键词：

主页 > 汽车 >

一文带你理解Q-Learning的搜索策略掌握强化学习最常用算法(2)

来源：原创/投稿/转载发布时间：2019-08-09

　　这种界限方法是目前最常用的，基于这种界限后面也有许多改进工作，包括UCB-V，UCB*，KL-UCB，Bayes-UCB和BESA[4]等。

　　下面给出经典UCB算法的Python实现，及其在Q-Learning上的应用效果。

　　UCB搜索算法应该能很快地获得高额奖励，但是前期搜索对训练过程的影响较大，有希望用来解决更复杂的多臂******机问题，因为这种方法能帮助智能体跳出局部最优值。

　　Q-Learning是强化学习中最常用的算法之一。在这篇文章中，我们讨论了搜索策略的重要性和如何用UCB搜索策略来替代经典的ε-greedy搜索算法。

　　更多更细致的优先策略可以被用到Q-Learning算法中，以平衡好利用和探索的关系。

责任编辑：admin

上一篇：华腾生物病人监护仪胎儿监护仪华腾工程PSA制氧机净化手术室

下一篇：Q++模块插件v135 安卓版

最火资讯

热门频道推荐

相关功能

本网转载作品的目的在于传递更多信息，并不代表本网赞同其观点或证实其内容的真实性，不承担此类作品侵权行为的直接责任及连带责任。如涉及作品内容、版权等问题，请联系我们进行修改或删除！