您现在的位置是：首页 >财经 > 2020-11-10 15:18:46 来源：

强化学习到底是什么如何运作

导读强化学习是机器学习的一个子集。它使代理能够了解特定环境中操作的后果。例如，它可以用于教机器人新技巧。强化学习是一种行为学习模型，其

强化学习是机器学习的一个子集。它使代理能够了解特定环境中操作的后果。例如，它可以用于教机器人新技巧。强化学习是一种行为学习模型，其中算法提供数据分析反馈，将用户引导到最佳结果。它不同于其他形式的监督学习，因为样本数据集不会训练机器。相反，它是通过反复试验来学习的。因此，一系列正确的决策将加强该方法，因为它可以更好地解决问题。

强化学习类似于我们小时候人类所拥有的东西。我们所有人都经历了学习的强化–当您开始爬行并试图站起来时，您一遍又一遍跌倒，但是您的父母却在那里扶着您并教您。

它是基于经验的教学，在这种教学中，机器必须处理之前发生的问题并寻找正确的方法。

尽管我们没有描述奖励政策(即游戏规则)，但我们并未向模型提供任何有关如何解决游戏的提示或建议。由模型决定从随机测试和复杂的战术开始，如何执行任务以优化奖励。

通过利用研究能力和多次尝试，强化学习是表明计算机想象力的最成功方法。与人类不同，人工智能将从成千上万的辅助游戏中获取知识。同时，强化学习算法可在强大的计算机基础结构上运行。

例如，在YouTube上的推荐就是强化学习的一个例子。观看视频后，该平台将向您显示您认为喜欢的类似标题。但是，假设您开始观看推荐并且没有完成推荐。在这种情况下，机器会理解该建议不是一个好的建议，并且下次将尝试另一种方法。

强化学习挑战

强化学习的主要挑战是计划仿真环境，该环境很大程度上取决于要执行的任务。如果接受过国际象棋，围棋或Atari游戏的训练，则模拟环境的准备相对容易。建立能够驾驶自动驾驶汽车的模型，是在让汽车驶上街道之前创建逼真的原型的关键。该模型必须决定如何在安全的环境中打破或防止碰撞。将模型从训练环境转移到现实世界变得成问题。

扩展和修改代理的神经网络是另一个问题。除了奖励和处罚外，没有其他方法可以与网络建立联系。这可能会导致灾难性的健忘，在这种情况下，获取新信息会导致一些旧知识从网络中删除。换句话说，我们必须继续在代理的“记忆”中学习。

另一个困难是到达一个合适的位置-即，代理人按原样执行任务，但没有以理想或要求的方式执行任务。像袋鼠一样跳跃的“跳跃者”而不是期望他做的是一个很好的例子。最后，某些特工可以在不完成任务的情况下最大化奖品。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：强化学习