🌟 👩🏻‍⚖️ 🌱 机器学习。神经网络（第1部分）：感知器学习过程 👊🏻 🧗🏿 👩🏾‍🤝‍👩🏽

我想提前指出，那些了解感知器学习方式的人几乎不会在本文中找到新的东西。您可以安全地跳过它。为什么我决定写这篇文章-我想写一系列与神经网络和TensorFlow.js的使用有关的文章，因此我不能忽略一般的理论摘录。因此，请您耐心和谅解地对待最终想法。

在经典编程中，开发人员使用特定的编程语言描述了一组严格指定的规则，这些规则是根据他在特定主题领域的知识确定的，并且作为第一近似，描述了解决类似问题时人脑中发生的过程。

例如，可以制定一个打井字棋，国际象棋等的策略（图1）。

图1-解决问题的经典方法

机器学习算法可以定义一组解决问题的规则，而无需开发人员的参与，而只能基于训练数据集的可用性。

训练集是与一组预期结果（响应，输出）相关的某种输入集。在训练的每个步骤中，模型都会通过更改内部状态来优化并减少模型实际输出与预期结果之间的误差（图2）。

图2-机器学习

神经网络

长期以来，科学家在我们大脑中发生的过程的启发下，试图对中枢神经系统进行逆向工程，并试图模仿人脑的工作。因此，机器学习的一个完整方向诞生了-神经网络。

在图3中，您可以看到生物神经元的设计与机器学习中使用的神经元的数学表示形式之间的相似之处。

图3-神经元的数学表示

在生物神经元中，神经元接收来自树突的电信号，调制具有不同强度的电信号，当达到某个阈值时可以激发神经元，这又将导致电信号通过突触传递给其他神经元。

感知器

一个神经网络的数学模型，由一个神经元组成，执行两个顺序的操作（图4）：

考虑连接的权重（电导或电阻），计算输入信号的总和
${s u m = \vec{X}}^{T} \vec{W} + \vec{B} = \sum_{i = 1}^{n} x_{i} w_{i} + b$
${sum=\ \vec{X}}^T\vec{W}+\vec{B}=\sum_{i=1}^{n}{x_iw_i}+b$
将激活函数应用于输入信号的总和。
$o u t = φ (s u m)$
$out=\varphi(sum)$

图4-感知器的数学模型

任何微分函数都可以用作激活函数，最常用的函数如表1所示。激活函数的选择落在工程师的肩膀上，通常这种选择是基于解决相似问题的现有经验，或者仅仅是通过方法选择。

那个笔记

但是，建议如果神经网络中需要非线性，则ReLU函数最适合用作激活函数，该函数在训练过程中具有模型的最佳收敛速度。

表1-常用激活功能


Linear function	$φ (x) = x$ $\varphi\left(x\right)=x$	.
Sigmoid function	$φ (x) = \frac{1}{1 + e^{- x}}$ $\varphi\left(x\right)=\frac{1}{1+e^{-x}}$
Softmax function	$φ (x_{j}) = \frac{e^{x_{j}}}{\sum_{i} e^{x_{i}}}$ $\varphi\left(x_j\right)=\frac{e^{x_j}}{\sum_{i} e^{x_i}}$	$φ ([\begin{matrix} 1.2 \\ 0.9 \\ 0.4 \end{matrix}]) = [\begin{matrix} 0.46 \\ 0.34 \\ 0.20 \end{matrix}]$ $\varphi \left ( \begin{bmatrix} 1.2\\ 0.9\\ 0.4 \end{bmatrix} \right ) = \begin{bmatrix} 0.46\\ 0.34\\ 0.20 \end{bmatrix}$ ( 2)
Hyperbolic Tangent function	$φ (x) = \frac{e^{x} - e^{- x}}{e^{x} - e^{- x}}$ $\varphi\left(x\right)=\frac{e^x-e^{-x}}{e^x-e^{-x}}$	[-1, 1]. , ,
Rectified Linear Unit (ReLU)	$φ (x) = max (0, x)$ $\varphi\left(x\right)=\max(0,x)$	, , sigmoid tanh
Leaky ReLU	$φ (x) = max (0.01 x, x)$ $\varphi\left(x\right)=\max(0.01x,x)$	ReLU , 0

感知器学习过程

学习过程包括几个步骤。为了更清晰起见，我们将考虑一个虚拟问题，该问题将通过一个神经网络解决，该神经网络由具有线性激活函数的神经元组成（这本质上是一个根本没有激活函数的感知器），并且为了简化任务，我们将排除神经元中的位移节点b（图5） ...

图5-训练前一步的训练数据集和神经网络的状态

在此阶段，我们具有处于特定状态的神经网络，该状态的某些连接权重是在训练模型的前一阶段计算出来的，或者如果这是训练的第一次迭代，则在以下位置选择连接权重的值随机顺序。

因此，让我们假设我们有一些训练数据集，该集合中每个元素的值都由输入数据（输入数据）的向量表示，其中包含2个参数（特征）

x_{1}, x_{2}

$x_1,x_2$ ... 下

x_{1}, x_{2}

$x_1,x_2$ 在模型中，取决于所讨论的领域，可能隐含任何内容：房屋中的房间数量，房屋与大海的距离等等，或者我们只是在尝试训练逻辑运算AND或OR的神经网络。

训练集中的每个输入向量都映射到预期的输出向量。在这种情况下，输出数据向量仅包含一个参数，再次取决于所选主题区域，该参数可能表示任何内容-房屋价格，执行逻辑“与”或“或”运算的结果。

步骤1-前馈程序

在此步骤中，我们将考虑每个键的权重来计算输入信号的总和，并应用激活函数（在我们的情况下，没有激活函数）。让我们对训练集中的第一个元素进行计算：

y_{p r e d i c t e d} = \sum_{i = 1}^{n} x_{i} w_{i} = 1 \cdot 0.1 + 0.5 \cdot 0.2 = 0.2

$y_{predicted}=\sum_{i=1}^{n}{x_iw_i}=1\cdot0.1+0.5\cdot0.2=0.2$

图6-错误的正向传播

请注意，对于张量运算的特殊情况，以上公式是简化的数学方程。

张量本质上是一个数据容器，可以具有N个轴，并且每个轴上可以具有任意数量的元素。大多数带有张量的人都熟悉数学-向量（一个轴的张量），矩阵（两个轴的张量-行，列）。

该公式可以用以下形式编写，您将在其中看到熟悉的矩阵（张量）及其乘法，并且还了解了上面讨论的简化形式：

{\vec{Y}}_{p r e d i c t e d} = {\vec{X}}^{T} \vec{W} = {[\begin{matrix} x_{1} \\ x_{2} \end{matrix}]}^{T} \cdot [\begin{matrix} w_{1} \\ w_{2} \end{matrix}] = [\begin{matrix} x_{1} & x_{2} \end{matrix}] \cdot [\begin{matrix} w_{1} \\ w_{2} \end{matrix}] = [x_{1} w_{1} + x_{2} w_{2}]

${\vec{Y}}_{predicted}=\ {\vec{X}}^T\vec{W}=\left[\begin{matrix}x_1\\x_2\\\end{matrix}\right]^T\cdot \left [ \begin{matrix} w_1\\ w_2 \end{matrix} \right ]=\left [ \begin{matrix} x_1 & x_2 \end{matrix} \right ] \cdot \left [ \begin{matrix} w_1\\ w_2 \end{matrix} \right ] =\left [ x_1w_1+x_2w_2 \right ]$

步骤2-计算误差

函数误差函数是一个度量标准，反映了预期输出与接收到的输出之间的差异。通常使用以下误差函数：

-均方误差（MSE） -该误差函数对训练集中的离群值特别敏感，因为它使用了实际值与期望值之间的差的平方（离群值是一个与其他值远非同一个值的值）数据集，有时可能由于数据错误而出现，例如将数据与不同的度量单位混合或传感器读数差）：

L = \frac{1}{N} \sum_{i = 1}^{N} {(y_{p r e d i c t e d (i)} - y_{e x p e c t e d (i)})}^{2}

$L=\frac{1}{N}\sum_{i=1}^{N}\left(y_{predicted(i)}-y_{expected(i)}\right)^2$

-均方根误差（Root MSE） -实际上，这与神经网络中的均方根误差相同，但是它可以反映实际的物理度量单位，例如，如果在神经网络中，神经网络的输出参数是房屋价格（美元），则度量单位均方误差为平方美元（

$^{2}

$$^2$ ），而对于标准差，则是美元（$），这自然会稍微简化人工分析的任务：

L = \sqrt{\frac{1}{N} \sum_{i = 1}^{N} {(y_{p r e d i c t e d (i)} - y_{e x p e c t e d (i)})}^{2}}

$L=\sqrt{\frac{1}{N}\sum_{i=1}^{N}\left(y_{predicted(i)}-y_{expected(i)}\right)^2}$

-平均偏差（平均绝对误差，MAE） -与上述两个值相比，对异常值不太敏感：

L = \frac{1}{N} \sum_{i = 1}^{N} | y_{p r e d i c t e d (i)} - y_{e x p e c t e d (i)} |

$L=\frac{1}{N}\sum_{i=1}^{N}\left|y_{predicted(i)}-y_{expected(i)}\right|$

-交叉熵-用于分类任务：

L = - \sum_{i = 1}^{N} \sum_{j = 1}^{M} y_{e x p e c t e d (i j)} \log (y_{p r e d i c t e d (i j)})

$L=-\sum_{i=1}^{N}\sum_{j=1}^{M}{y_{expected(ij)}\log(y_{predicted(ij)})}$

哪里

N

$N$ -训练集中的份数

M

$M$ -解决分类问题时的班级数量

y_{e x p e c t e d}

$y_{expected}$ -预期产值

y_{p r e d i c t e d}

$y_{predicted}$ -训练后的模型的实际输出值

对于我们的特殊情况，我们将使用MSE：

L = \frac{1}{N} \sum_{i = 1}^{N} {(y_{p r e d i c t e d (i)} - y_{e x p e c t e d (i)})}^{2} = {(0.2 - 1)}^{2} = 0.64

$L=\frac{1}{N}\sum_{i=1}^{N}\left(y_{predicted(i)}-y_{expected(i)}\right)^2={(0.2-1)}^2=0.64$

步骤3-反向传播

训练神经网络的目标很简单-最小化误差函数：

L \to m i n

$L\rightarrow min$

找到函数最小值的一种方法是，在学习的每个下一步中，沿着与梯度向量相反的方向修改连接权重-梯度下降法，在数学上看起来像这样：

{\vec{w}}^{(k + 1)} = {\vec{w}}^{k} - μ \nabla L ({\vec{w}}^{k})

${\vec{w}}^{(k+1)}={\vec{w}}^k-\mu\nabla L({\vec{w}}^k)$

哪里

k

$k$ -神经网络训练的第k次迭代；

μ

$\mu$ -学习率由工程师设置，通常可以为0.1；0.01（关于学习步骤如何影响学习收敛过程，请稍后注意）

\nabla L

$\nabla L$ -错误函数

的梯度要找到梯度，我们针对自定义参数使用偏导数

w_{1}, w_{2}

$w_1,w_2$ ：

\nabla L (\vec{w}) = [\begin{matrix} \frac{\partial L}{\partial w_{1}} \\ ⋮ \\ \frac{\partial L}{\partial w_{N}} \end{matrix}]

$\nabla L\left(\vec{w}\right)=\left[\begin{matrix}\frac{\partial L}{\partial w_1}\\\vdots\\\frac{\partial L}{\partial w_N}\\\end{matrix}\right]$

在我们的特殊情况下，考虑到所有简化，错误函数采用以下形式：

L (w_{1}, w_{2}) = {(y_{p r e d i c t e d} - y_{e x p e c t e d})}^{2} = {(x_{1} w_{1} + x_{2} w_{2} - y_{e x p e c t e d})}^{2} =

$L\left(w_1,w_2\right)={(y_{predicted}-y_{expected})}^2={(x_1w_1+x_2w_2-y_{expected})}^2=$

= {(1 \cdot w_{1} + 0.5 \cdot w_{2} - 1)}^{2}

$={(1\cdot w_1+0.5\cdot w_2-1)}^2$

导数公式备忘

,

$\frac{d}{d x} c = 0; c = c o n s t$
$\frac{d}{dx}c=0;c=const$
$\frac{d}{d x} [c f (x)] = c f^{'} (x); c = c o n s t$
$\frac{d}{dx}\left[cf\left(x\right)\right]=cf^\prime\left(x\right);\ c=const$
$\frac{d}{d x} x^{n} = n x^{n - 1}$
$\frac{d}{dx}x^n=nx^{n-1}$

$\frac{d}{d x} [f (x) \pm g (x)] = f^{'} (x) \pm g^{'} (x)$
$\frac{d}{dx}\left[f\left(x\right)\pm g(x)\right]=f^\prime\left(x\right)\pm g^\prime(x)$
$\frac{d}{d x} [f (x) g (x)] = f^{'} (x) g (x) + g^{'} (x) f (x)$
$\frac{d}{dx}\left[f\left(x\right)g\left(x\right)\right]=f^\prime\left(x\right)g\left(x\right)+g^\prime\left(x\right)f\left(x\right)$
$\frac{d}{d x} f (g (x)) = f^{'} (g (x)) g^{'} (x)$
$\frac{d}{dx}f\left(g\left(x\right)\right)=f^\prime(g(x))g^\prime(x)$

让我们找到以下偏导数：

\frac{\partial}{\partial w_{1}} {(w_{1} + 0.5 w_{2} - 1)}^{2} = 2 \cdot (w_{1} + 0.5 w_{2} - 1) \frac{\partial}{\partial w_{1}} (w_{1} + 0.5 w_{2} - 1) =

$\frac{\partial}{\partial w_1}{(w_1+0.5w_2-1)}^2=2\cdot\left(w_1+0.5w_2-1\right)\frac{\partial}{\partial w_1}\left(w_1+0.5w_2-1\right)=$

= 2 \cdot (w_{1} + 0.5 w_{2} - 1) \cdot 1 = 2 (0.1 + 0.5 \cdot 0.2 - 1) = - 1.6

$=2\cdot\left(w_1+0.5w_2-1\right)\cdot1=2\left(0.1+0.5\cdot0.2-1\right)=-1.6$

\frac{\partial}{\partial w_{2}} {(w_{1} + 0.5 w_{2} - 1)}^{2} = 2 \cdot (w_{1} + 0.5 w_{2} - 1) \frac{\partial}{\partial w_{2}} (w_{1} + 0.5 w_{2} - 1) =

$\frac{\partial}{\partial w_2}{(w_1+0.5w_2-1)}^2=2\cdot\left(w_1+0.5w_2-1\right)\frac{\partial}{\partial w_2}\left(w_1+0.5w_2-1\right)=$

= 2 \cdot (w_{1} + 0.5 w_{2} - 1) \cdot 0.5 = 2 (0.1 + 0.5 \cdot 0.2 - 1) \cdot 0.5 = - 0.8

$=2\cdot\left(w_1+0.5w_2-1\right)\cdot0.5=2\left(0.1+0.5\cdot0.2-1\right)\cdot0.5=-0.8$

然后，误差的反向传播过程是沿着模型从输出向输入的方向移动，其中模型权重沿与梯度矢量相反的方向进行了修改。将学习步骤设置为0.1（学习率）（图7）：

w_{1}^{(k + 1)} = w_{1}^{(k)} - μ \frac{\partial L (w_{1}, w_{2})}{\partial w_{1}} = 0.1 - 0.1 \cdot (- 1.6) = 0.26

$w_1^{(k+1)}=w_1^{(k)}-\mu\frac{\partial L\left(w_1,w_2\right)}{\partial w_1}=0.1-0.1\cdot\left(-1.6\right)=0.26$

w_{2}^{(k + 1)} = w_{2}^{(k)} - μ \frac{\partial L (w_{1}, w_{2})}{\partial w_{2}} = 0.2 - 0.1 \cdot (- 0.8) = 0.28

$w_2^{(k+1)}=w_2^{(k)}-\mu\frac{\partial L\left(w_1,w_2\right)}{\partial w_2}=0.2-0.1\cdot\left(-0.8\right)=0.28$

图7-误差的反向传播

因此，我们已完成k + 1个训练步骤，以确保误差已减小，并且具有新权重的模型的输出已接近预期值，我们将沿着具有新权重的模型执行误差的正向传播过程（请参见步骤1）。：

y_{p r e d i c t e d} = x_{1} w_{1} + x_{2} w_{2} = 1 \cdot 0.26 + 0.5 \cdot 0.28 = 0.4

$y_{predicted}=x_1w_1+x_2w_2=1\cdot0.26+0.5\cdot0.28=0.4$

如您所见，输出值朝着预期结果的正确方向增加了0.2个单位-一（1）。该错误将是：

L = {(0.4 - 1)}^{2} = 0.36

$L={(0.4-1)}^2=0.36$

如您所见，在上一个训练步骤中，误差为0.64，并且使用新的权重-0.36，因此，我们在正确的方向上调整了模型。

文章的下一部分：

机器学习。神经网络（第2部分）：或建模；与TensorFlow.js机器学习进行 XOR

。神经网络（第3部分）-显微镜下的卷积网络。探索Tensorflow.js API

机器学习。神经网络（第1部分）：感知器学习过程

神经网络

感知器

那个笔记

感知器学习过程

More articles: