目录

线性模型分类与回归感知机模型激活函数维度诅咒过拟合和欠拟合正则数据增强数值稳定性神经网络大家族CNNRNNGNN(图神经网络)GAN

线性模型

向量版本

y

=

w

,

x

+

b

y = \langle w, x \rangle + b

y=⟨w,x⟩+b

分类与回归

懂得两者区别激活函数,损失函数

感知机模型

感知机模型的本质是线性模型,再加上激活函数训练数据、损失函数、梯度下降,小批量梯度下降神经网络算法整体流程:

初始化网络前向传播计算损失计算微分梯度下降反向传播多轮迭代

Created with Raphaël 2.3.0

开始

初始化函数

前向传播

计算损失

计算微分

梯度下降

反向传播

迭代完成?

结束

yes

no

激活函数

给模型加入拟合非线性功能常见激活函数:

Sigmoid 0-1 二分类Tanh -1-1relu:公认的最好用的激活函数之一

维度诅咒

神经网络可以很轻松的对隐藏层进行升降维升维后密度呈现指数形式逐渐下降,维度太大会过拟合

过拟合和欠拟合

训练误差:模型在训练集上的误差泛化误差:模型在同样从原始样本的分布中抽取的无限多数据样本时模型误差的期望。现实世界不可能有无限多数据,所以只能将模型应用于独立的测试集来估计泛化误差。过拟合:训练误差小,泛化误差大。欠拟合:训练误差大,泛化误差大。解决过拟合:

正则化:减少参数的大小数据增强:对原始数据做变化增加数据量降维:特征选择集成学习:多个模型集成在一起早停法:监控训练集和验证集的错误率 解决欠拟合:

添加新特征增加模型复杂度减少正则化系数

正则

正则:约束模型复杂度来防止过拟合现象的一种手段。模型复杂度是由模型参数量大小和参数的可取值范围共同决定的。正则两个方向:约束模型参数量(dropout),约束模型取值范围(weight decay)利用均方范数作为硬性和软性限制衡量模型好坏可以看方差和偏差

\低方差高方差低偏差预测准,且较集中预测准,但较分散高偏差预测不准,且较集中预测不准,且比较分散

L1正则化:使参数稀疏化

损失函数

=

原始损失函数

+

λ

2

m

i

=

1

n

w

i

\text{损失函数} = \text{原始损失函数} + \frac{\lambda}{2m}\sum_{i=1}^{n} |w_i|

损失函数=原始损失函数+2mλ​i=1∑n​∣wi​∣ L2正则化:降低参数范围

损失函数

=

原始损失函数

+

λ

2

m

i

=

1

n

w

i

2

\text{损失函数} = \text{原始损失函数} + \frac{\lambda}{2m} \sum_{i=1}^{n} w_i^2

损失函数=原始损失函数+2mλ​i=1∑n​wi2​ Dropout 对神经网络的节点进行随机的失活,训练时失活,预测是全部节点 集成学习是打比赛进行提点的一个很重要的方法

数据增强

成功的机器学习应用不是拥有最好的算法,而是拥有最多的数据!当数据到达一定级数后,拥有相近的高准确度。

数值稳定性

计算机视觉,模型很大,数据集要好几万、好几亿。模型不大,要需要上百。梯度消失梯度爆炸解决方法:数据归一化

Z-Score归一化最大最小归一化

原因:提升模型精度和收敛速度

神经网络大家族

CNN

Image SearchImage LabelingImage SegmantationObject DetectionObject TrackingOCRVideo AnnotationRecommendationImage ClassificationRobot perception以上分类不及1/10

RNN

语法语义分析信息检索自动文摘文本数据挖掘自动问答机器翻译知识图谱情感分析文本相似度文本纠错 原理:下一层的输入不仅和原始输入有关,还和之前的输出有关

GNN(图神经网络)

芯片设计场景分析与问题推理推荐系统欺诈检测与风控相关知识图谱道路交通的流量预测自动驾驶(无人机等场景)化学,医疗等场景生物,制药等场景社交网络

原理:图节点,边和整体进行训练

GAN

图像超分辨率艺术创作图像到图像的翻译(风格迁移)文本到图像的翻译图片编辑服装翻译照片表情符号图片融合图片修补

原理:生成器和判别器

相关链接

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: