网站首页 > 人工智能 > 正文

机器人机器学习笔记二——强化学习

计算机系统组装与维护人工智能 2024-01-05 16 0

一、什么是强化学习

强化学习就是让智能体可以独立自主的完成某个任务。独立自主指的就是不需要人去指挥。

比如扫地机器人，打开开关就会自动去清理。自动驾驶的汽车，在定好目的地后，可以自动安全达到目的地。

强化学习的过程

Agent（智能体）——产生Action（行动）——Environment（环境）——产生new state（状态）以及reward（奖惩）——返给Agent

强化学习的本质：学习的是一种策略Policy，如何去选择行为，如何确定下一步的动作。

二、Action与Reward

Action就是具体的行为。比如扫地机器人可以向前、向后、向左、向右、吸尘等行为。

动作空间就是智能体能够做出的动作的数量。比如上面就是5个。

Reward智能体在某个state下完成某个action后环境给出的反馈。将这个效果反馈作为一个数值表达，就是奖惩。大于零鼓励，小于零惩罚。比如扫地机器人扫干净灰尘+1，撞到墙-1等。

以奖励为引导，期望智能体做出获得奖励更多的动作。奖励的设定是人为的，主观的，所以很多时候我们可以对奖励的方式进行一定的修正，去加速机器学习的过程。

三、分类

model base——基于模型，这个模型是指上一刻的状态与下一刻的状态之间的概率分布关系

model free——无模型（这种多）

四、马尔科夫链

智能体在环境中观察到状态S——状态S被输入到智能体，智能体经过计算选择动作A——动作A使得智能体进入到另一个状态S'，并返回奖励R给智能体——智能体根据返回，调整策略。重复以上步骤就可以创造马尔科夫链

这里有两个不确定性：

1.选择动作的过程，即智能体的策略Π，任务是找到一个策略，获得最多的奖励

2.环境的随机性，同一个action可能会反馈有不同的State或Reward

五、Q值和V值

很多问题中，并不能单纯通过R来衡量动作好坏，而需要用到长远的眼光，比如下围棋。所以需要把未来的Reward也计算到当前的状态下来，再进行决策。

为此需要用一种方法衡量智能体做出每一种选择的价值，这中间包括未来的价值。

评估动作的价值称为Q值。智能体选择这个动作后，一直到最终状态奖励总和的期望。

评估状态的价值称为V值。智能体在这个状态下，一直到最终状态的奖励总和的期望。

价值越高，从当前状态到最终状态能获得的平均奖励就会越高。则只需选择价值更高的动作就可以。

六、V值具体指什么，怎么算

要求某种状态S下得V值：

假定从状态S出发——按照策略Π选择不同的行为A，在按照不同的行为继续往下获得不同的状态——每条路径一直往下走到最终状态，可以获得所有的奖励总和——再得到奖励的平均值即为我们要求的V值。

策略Π不同，V值会有所不同。

例如策略Π1对应的动作A1为50%，A2为50%,A1对应往下的路径奖励综合为10，A2对应往下的路径奖励总和为20，则相应的V值为15。

若策略Π2对应的动作A1为60%，A2为40%，A1对应往下的路径奖励综合为10，A2对应往下的路径奖励总和为20，则相应的V值为（10*60%+20*40%）=14。

七、Q值怎么算

V值和Q值都是指价值，不同的是V值指的是某状态节点的价值，Q值指的是某动作节点的价值。

即：某个状态下一个动作A的Q值——从某个状态选取动作A，走到最终状态很多次，最终获得奖励总和的平均值就是Q值。Q值与策略无直接相关，与环境的不确定性有关

八、V就是子节点的Q的期望，Q是子节点的V的期望

持续更新中~

参考学习视频：3-详解Q值和V值以及它们之间关系_哔哩哔哩_bilibili

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

笔记机器人机器学习

本文由用户于 2024-01-05 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/17832123.html

金钥匙

机器人机器学习笔记二——强化学习

人工智能机器学习 - 决策树：技术全解与案例实战

机器学习数据分析数据挖掘 sklearn库 bp神经网络[从原理到代码一篇搞定]（2）

发表评论取消回复

金钥匙

机器人 机器学习笔记二——强化学习

人工智能 机器学习 - 决策树：技术全解与案例实战

机器学习 数据分析 数据挖掘 sklearn库 bp神经网络[从原理到代码一篇搞定]（2）

相关文章

发表评论取消回复

机器人机器学习笔记二——强化学习

人工智能机器学习 - 决策树：技术全解与案例实战

机器学习数据分析数据挖掘 sklearn库 bp神经网络[从原理到代码一篇搞定]（2）