当前位置：首页 > news >正文

网站制作服务公司推广方案应该有哪些方面

news 2025/8/2 23:58:56

网站制作服务公司,推广方案应该有哪些方面,wordpress设置域名ip地址,企业logo设计意义CH3 3.1 几种损失函数 3.2 激活函数性质 3.3 哪几种激活函数会发生梯度消失 3.4 为什么会梯度消失 3.5 如何解决梯度消失和过拟合 3.6 梯度下降的区别 3.6.1 梯度下降（GD） 全批量：在每次迭代中使用全部数据来计算损失函数的梯度。计算成本…

CH3

3.1 几种损失函数

3.2 激活函数性质

3.3 哪几种激活函数会发生梯度消失

3.4 为什么会梯度消失

3.5 如何解决梯度消失和过拟合

3.6 梯度下降的区别

3.6.1 梯度下降（GD）

全批量：在每次迭代中使用全部数据来计算损失函数的梯度。
计算成本高：对于大数据集来说，每次迭代的计算成本非常高。
稳定收敛：由于每次都利用全部数据，因此梯度的估计非常准确，收敛路径平滑。

3.6.2 随机梯度下降（SGD）

单个样本：在每次迭代中随机选择一个数据样本来计算梯度。
计算成本低：每次只处理一个样本，大大减少了计算量。
收敛波动大：由于每次只用一个样本更新，梯度估计的方差较大，导致收敛过程中有较多波动。

3.6.3 Mini-batch梯度下降

小批量样本：在每次迭代中使用一小部分数据样本（例如32或64个样本）来计算梯度。
计算成本适中：平衡了全批量的计算效率和随机梯度的更新速度。
收敛相对稳定：小批量的使用减少了梯度估计的方差，使得收敛过程比随机梯度下降更稳定，但又比全批量梯度下降更灵活。

3.7 DNN

3.7.1 反向传播算法过程

将输出误差以某种形式反传给各层所有的单元，各层按本层误差修正各单元连接权值。

3.7.2 训练步骤

3.8 CNN

3.8.1 CNN的组成

由卷积层、子采样层、全连接层交叉堆叠而成

3.8.2 对比DNN

3.9 GNN

3.9.1 基本GNN和GCN的公式对比

3.9.1.1 基本GNN的公式

$h_v^k = \sigma \left( W_k \sum_{u \in \mathcal{N}(v)} \frac{h_u^{k-1}}{|\mathcal{N}(v)|} + B_k h_v^{k-1} \right)$

核心思想：
- 聚合节点 $v$ 的邻居节点特征 $h_u^{k-1}$ 的平均值。
- 使用两个不同的权重矩阵 $W_k$ 和 $B_k$ 分别对邻居特征和节点自身特征进行线性变换。
- 通过激活函数 $\sigma$ （例如 ReLU 或 tanh）引入非线性。
特点：
- 对所有邻居进行简单的平均（即 $\frac{1}{|\mathcal{N}(v)|}$ ），没有对邻居节点的重要性加权。
- 参数共享较少，特征变换对邻居和节点自身分开处理。

3.9.1.2 GCN的公式

$h_v^k = \sigma \left( W_k \sum_{u \in \mathcal{N}(v) \cup \{v\}} \frac{h_u^{k-1}}{\sqrt{|\mathcal{N}(u)||\mathcal{N}(v)|}} \right)$

改进点：
1. 归一化：
  - 替代简单的平均聚合，GCN引入对称归一化因子 $\frac{1}{\sqrt{|\mathcal{N}(u)||\mathcal{N}(v)|}}$ ，减小高度节点（高度数节点）对结果的影响。
2. 参数共享：
  - 同一权重矩阵 $W_k$ 用于邻居特征和节点自身特征变换，减少参数数量，提高模型泛化能力。
3. 自环（Self-loop）：
  - 邻域中加入节点自身（即 $\mathcal{N}(v) \cup \{v\}$ ），保证每层节点都能保留自身信息。
特点：
- 更好的参数共享，减少了过拟合的风险。
- 归一化权重避免了高度数节点的特征主导问题。

3.9.2 GNN池化的概念

池化可以理解为图卷积过程中特征和节点的降维操作。以下是两种池化方式的相关描述：

3.9.2.1 全局池化

汇总整个图的节点特征，用于生成固定维度的图表示。
常见方式：
- 平均池化：取所有节点特征的平均值。
- 最大池化：取节点特征的最大值。
- 加权池化：根据任务需求对节点特征加权后聚合。

3.9.2.2 局部池化

在每一层中，通过选择部分重要节点，逐层减少图中节点的数量，同时保留主要的结构信息。
常见方式：
- Top- $k$ 池化：根据节点重要性评分选择得分最高的节点。
- 可微分池化（DiffPool）：通过学习分配矩阵动态生成池化结果。

3.9.3 GCN的改进特点

参数共享（More parameter sharing）：
- GCN使用相同的权重矩阵 $W_k$ 对邻居节点和自身节点的特征进行线性变换。
- 减少参数数量，提升模型训练稳定性。
削弱高度节点的影响（Down-weights high degree neighbors）：
- 通过对称归一化因子 $\frac{1}{\sqrt{|\mathcal{N}(u)||\mathcal{N}(v)|}}$ ，减小度数大的节点对目标节点的特征贡献。
- 防止高度数节点主导聚合特征，造成模型偏差。

3.9.4 总结

基本GNN：通过简单平均的方式聚合邻居特征，参数较多，但未对邻居节点的贡献权重进行优化。
GCN：引入对称归一化和参数共享机制，使模型更稳定、高效，同时减少过拟合。
GNN池化：可以进一步通过全局或局部池化操作提取图或节点的高层次特征，适应更复杂的任务需求。

3.9.5 邻接节点个数不确定如何解决？

邻居信息聚合：
- 核心思想：将目标节点的特征更新为其自身特征和邻居特征的组合。
参数共享：
- GNN采用共享的权重矩阵（如图中的 $W_k$ 和 $B_k$ ），即在同一层中所有节点使用相同的参数。
邻接节点特征聚合：
- 对每个节点的邻域进行聚合，生成一个固定维度的邻域表示（如 $W_kh^{k-1}$ ）。

实心节点（蓝色圆点）代表的是实心结点（实际节点），它们是对应的实心结点的邻接结点聚集。

在原始图结构(左图)中，每个节点都有其自然的邻接关系(通过灰色线连接)
对于层次 $h^k$ 到 $h^{k-1}$ 之间的信息传递：
- 设定了锚点（实心节点）
- 使用注意力机制或聚合函数（图中通过 $W_k$ 和 $B_k$ 表示）来学习和聚集信息
- 将相邻节点的信息聚集到这些锚点上
具体的聚集过程：
- 通过权重矩阵 $W_k$ 来计算注意力分数或重要性权重
- 使用 $B_k$ 来转换或投影特征
- 最终将邻域节点的信息加权聚合到固定数量的锚点上

3.9.6 GNN训练，卷积步骤

在最后一层（K层）得到每个结点的表示后，可以根据任务将其代入任何损失函数，然后用梯度下降法训练参数。

3.10 RNN

DNN、CNN 输入、输出定长；处理输入、输出变长问题效率不高。而自然语言处理中的语句通常其长度不固定。
单一DNN、CNN 无法处理时序相关序列问题

RNN核心思想：

将处理问题在时序上分解为一系列相同的“单元”，单元的神经网络可以在时序上展开，且能将上一时刻的结果传递给下一时刻，整个网络按时间轴展开。即可变长。

3.10.1 训练中的问题以及解决方式

会出现和深度前馈神经网络类似的梯度消失问题。在训练循环神经网络时，更经常出现的是梯度消失问题，训练较难

距当前节点越远的节点对当前节点处理影响越小，无法建模长时间的依赖

3.10.2 BPTT和BP的区别

参考链接

3.10.3 LSTM, GRU

3.10.4 设计题参考结构

补充

反向传播算法中第 L-1 层的误差项表达式：

$\delta^{(L-1)} = \sigma'(Z^{(L-1)}) \cdot (W^{(L)})^{\top} \delta^{(L)}$

其中：

$\sigma'$ 表示激活函数的导数
$Z^{(l)}$ 是第 l 层的加权输入
$W^{(l)}$ 是第 l 层的权重矩阵
$\delta^{(l)}$ 是第 l 层的误差项

推导步骤：

前向传播定义
第 l 层的输出 $A^{(l)}$ 表示为：
$A^{(l)} = \sigma(Z^{(l)}) = \sigma(W^{(l)}A^{(l-1)} + b^{(l)})$
损失函数定义
使用均方误差(MSE)作为损失函数 J：
$\frac{1}{2} \|A^{(L)} - Y\|^2$
计算输出层误差项 $\delta^{(L)}$ ：
$\delta^{(L)} = \frac{\partial J}{\partial Z^{(L)}} = (A^{(L)} - Y) \cdot \sigma'(Z^{(L)})$
递推计算隐藏层误差项
对于第 l 层 (l = L-1, L-2, …, 1)：
$\delta^{(l)} = \frac{\partial J}{\partial Z^{(l)}} = (W^{(l+1)})^{\top} \delta^{(l+1)} \cdot \sigma'(Z^{(l)})$

具体到 l = L-1：
$\delta^{(L-1)} = (W^{(L)})^{\top} \delta^{(L)} \cdot \sigma'(Z^{(L-1)})$

通过链式法则详细推导：

误差项 $\delta^{(l)}$ 可表示为：
$\delta^{(l)} = \frac{\partial J}{\partial Z^{(l)}} = \frac{\partial J}{\partial A^{(l)}} \cdot \frac{\partial A^{(l)}}{\partial Z^{(l)}}$
其中：
- $\frac{\partial A^{(l)}}{\partial Z^{(l)}} = \sigma'(Z^{(l)})$
- $\frac{\partial J}{\partial A^{(l)}} = (W^{(l+1)})^{\top} \delta^{(l+1)}$
最终得到第 L-1 层的误差项：
$\delta^{(L-1)} = \sigma'(Z^{(L-1)}) \cdot (W^{(L)})^{\top} \delta^{(L)}$