您好,欢迎来到欧得旅游网。
搜索
您的当前位置:首页强化学习笔记:深度强化学习

强化学习笔记:深度强化学习

来源:欧得旅游网

Q-learning中,主要任务是寻找最佳state-action Q ∗ ( s , a ) Q_*(s,a) Q(s,a)。Q-learning的实现(使用更新规则),需要存储和检索state-action对 ( s i , a j ) (s_i,a_j) (si,aj)的中间值 Q ( s i , a j ) Q(s_i,a_j) Q(si,aj)。通常使用一些数据结构(例如矩阵)来达成目的。我们可以简单地认为数据结构是一个“查找表 look-up table”的值 Q ( s i , a j ) Q(s_i,a_j) Q(si,aj),或者简单的一个Q表。当输入 s i s_i si a j a_j aj后,我们只需要在Q表中查找 Q ( s i , a j ) Q(s_i,a_j) Q(si,aj)

为什么需要deep强化学习

使用Q-learning解决实际问题的主要难点在于Q表很大,很难查找完整个Q表。

考虑到围棋。放置棋子称为move。在游戏进行中的任意时间里,当前棋盘上的位置情况为board position,这可以被理解为强化学习中的state。棋盘网格一般为 19 × 19 19×19 19×19,可能的摆放位置有 2 × 1 0 170 2×10^{170} 2×10170,从一个位置上可能的平均走法约为250种,所以围棋的Q表大小为 250 × 2 × 1 0 170 250×2×10^{170} 250×2×10170

DQN方法使用了强化学习的一种解决方式,这个计算解决方案是基于生物启发,计算系统称为(人工)神经网络。

神经网络介绍

一个神经网络包含processing units(neurons),units分层排列,一层中的每个unit与下一层的所有units相连接,每个连接有一定强度,用权重 w w w表示。信号单向地从一层传输到下一层,除了输入层,其他的所有units都在计算非线性函数,例如tanh函数。非线性方程被称为activation function。激活函数的输入是所有来自上一层的units的信号加权和。

从外界接收信号的被称为input layer。与之相反的还有output layer。二者之间的是hidden layer,这个神经网络结构为multilayer feedforward network

在图中,输出 y n n y_{nn} ynn取决于输入x和权重 w 11 ( 1 ) w_{11}^{(1)} w11(1) w 21 ( 1 ) w_{21}^{(1)} w21(1)。使用矩阵W表示所有的权重,那么三者之间的关系是
y n n = g ( x , W ) y_{nn}=g(x,W) ynn=g(x,W)

这样的神经网络也被称为multilayer perceptron(MLP)。结构适当的MLP可以以任何精度近似任何函数,这已得到正式证明。例如逼近双曲线函数:
y = x 2 y=x^2 y=x2
想法是为权重W找到最优矩阵 W ∗ W^* W,使得下式成立:
y − y n n = x 2 − g ( x , W ∗ ) → 0 y-y_{nn}=x^2-g(x,W^*)→0 yynn=x2g(x,W)0
神经网络需要运行一个“学习算法”来找到最优权重 W ∗ W^∗ W

近似的准确性受两个因素影响:hidden units的数量和权重W的值。

如果一个神经网络包含足够数量的隐单元,它本质上能够以任何精度逼近任何给定的函数,所以神经网络也被称为universal approximators

Deep Q-Network(DQN)

假设有M个行为,agent可以从状态 s i s_i si中选择。我们可以把 Q Q Q表看作一个矢量函数,用 f ( ⋅ ) f(·) f()表示,当有状态 s i s_i si作为输入时,产生矢量 q q q作为输出:

DQN方法的关键思想是利用神经网络来逼近 f ( s i ) f(s_i) f(si)

因为神经网络是通用逼近器,我们可以确信一个适当设计的神经网络 g ( s i , W ) g(s_i,W) g(si,W)能够逼近代表前面讨论过的Q表的函数 f ( s i ) f(s_i) f(si)。因此,我们可以建立一个神经网络,并尝试找到一组最优权重 W ∗ W^∗ W

所以如何避免繁琐的运算呢?答案就是给定的输入 s i s_i si,用神经网络 g ( s i , W ∗ ) g(s_i,W^*) g(si,W)计算向量 y n n y_{nn} ynn,运算量会大大减小。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- ovod.cn 版权所有 湘ICP备2023023988号-4

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务