在Q-learning
中,主要任务是寻找最佳state-action
值
Q
∗
(
s
,
a
)
Q_*(s,a)
Q∗(s,a)。Q-learning的实现(使用更新规则),需要存储和检索state-action对
(
s
i
,
a
j
)
(s_i,a_j)
(si,aj)的中间值
Q
(
s
i
,
a
j
)
Q(s_i,a_j)
Q(si,aj)。通常使用一些数据结构(例如矩阵)来达成目的。我们可以简单地认为数据结构是一个“查找表 look-up table
”的值
Q
(
s
i
,
a
j
)
Q(s_i,a_j)
Q(si,aj),或者简单的一个Q表。当输入
s
i
s_i
si和
a
j
a_j
aj后,我们只需要在Q表中查找
Q
(
s
i
,
a
j
)
Q(s_i,a_j)
Q(si,aj)。
使用Q-learning解决实际问题的主要难点在于Q表很大,很难查找完整个Q表。
考虑到围棋。放置棋子称为move
。在游戏进行中的任意时间里,当前棋盘上的位置情况为board position
,这可以被理解为强化学习中的state
。棋盘网格一般为
19
×
19
19×19
19×19,可能的摆放位置有
2
×
1
0
170
2×10^{170}
2×10170,从一个位置上可能的平均走法约为250种,所以围棋的Q表大小为
250
×
2
×
1
0
170
250×2×10^{170}
250×2×10170。
DQN方法使用了强化学习的一种解决方式,这个计算解决方案是基于生物启发,计算系统称为(人工)神经网络。
一个神经网络包含processing units
(neurons
),units分层排列,一层中的每个unit与下一层的所有units相连接,每个连接有一定强度,用权重
w
w
w表示。信号单向地从一层传输到下一层,除了输入层,其他的所有units都在计算非线性函数,例如tanh函数。非线性方程被称为activation function
。激活函数的输入是所有来自上一层的units的信号加权和。
从外界接收信号的被称为input layer
。与之相反的还有output layer
。二者之间的是hidden layer
,这个神经网络结构为multilayer feedforward network
。
在图中,输出
y
n
n
y_{nn}
ynn取决于输入x和权重
w
11
(
1
)
w_{11}^{(1)}
w11(1)
w
21
(
1
)
w_{21}^{(1)}
w21(1)。使用矩阵W表示所有的权重,那么三者之间的关系是
y
n
n
=
g
(
x
,
W
)
y_{nn}=g(x,W)
ynn=g(x,W)
这样的神经网络也被称为multilayer perceptron(MLP)
。结构适当的MLP可以以任何精度近似任何函数,这已得到正式证明。例如逼近双曲线函数:
y
=
x
2
y=x^2
y=x2
想法是为权重W找到最优矩阵
W
∗
W^*
W∗,使得下式成立:
y
−
y
n
n
=
x
2
−
g
(
x
,
W
∗
)
→
0
y-y_{nn}=x^2-g(x,W^*)→0
y−ynn=x2−g(x,W∗)→0
神经网络需要运行一个“学习算法”来找到最优权重
W
∗
W^∗
W∗
近似的准确性受两个因素影响:hidden units的数量和权重W的值。
如果一个神经网络包含足够数量的隐单元,它本质上能够以任何精度逼近任何给定的函数,所以神经网络也被称为universal approximators
。
假设有M个行为,agent可以从状态
s
i
s_i
si中选择。我们可以把
Q
Q
Q表看作一个矢量函数,用
f
(
⋅
)
f(·)
f(⋅)表示,当有状态
s
i
s_i
si作为输入时,产生矢量
q
q
q作为输出:
DQN方法的关键思想是利用神经网络来逼近
f
(
s
i
)
f(s_i)
f(si)
因为神经网络是通用逼近器,我们可以确信一个适当设计的神经网络
g
(
s
i
,
W
)
g(s_i,W)
g(si,W)能够逼近代表前面讨论过的Q表的函数
f
(
s
i
)
f(s_i)
f(si)。因此,我们可以建立一个神经网络,并尝试找到一组最优权重
W
∗
W^∗
W∗
所以如何避免繁琐的运算呢?答案就是给定的输入 s i s_i si,用神经网络 g ( s i , W ∗ ) g(s_i,W^*) g(si,W∗)计算向量 y n n y_{nn} ynn,运算量会大大减小。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- ovod.cn 版权所有 湘ICP备2023023988号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务