网站首页 > 人工智能 > 正文

人工智能深度学习 Day24——使用Pytorch环境实现mnist手写数字识别

中国十大软件上市公司人工智能 2024-05-21 18 0

深度学习 Day24——使用Pytorch环境实现mnist手写数字识别

文章目录

深度学习 Day24——使用Pytorch环境实现mnist手写数字识别一、前言二、我的环境三、Pytorch简介四、前期工作1、导入依赖项和设置GPU2、导入数据3、加载数据4、数据可视化

五、构建简单的CNN网络六、训练模型1、设置超参数2、编写训练函数3、编写测试函数4、正式训练

七、结果可视化八、最后我想说

一、前言

 本文为365天深度学习训练营中的学习记录博客

 参考文章：365天深度学习训练营-第P1周：实现mnist手写数字识别

 原作者：K同学啊|接辅导、项目定制

接下来我们将转战Pytorch环境继续学习深度学习，Pytorch和Tensorflow是目前最主流的两个深度学习框架，近些来越来越多的人选择学习Pytorch，因为相比于Tensorflow其更加易用以及拥有大量的开源资源，Tensorflow系统相对底层，而Pytorch更多的从算法工程师的角度考虑，其接口可以更便捷的被调用，学习起来相对容易一点。

首先我们需要去下载Pytorch，我是使用Anaconda下载的，在下载之前我们最好重新创建一个虚拟环境，这样就不会相互影响：

# 创建虚拟环境

conda create -n your_env_name python=x.x

# 激活虚拟环境

activate your_env_name

然后我们去Pytorch官网下载对应版本：

在Anaconda里面输入官网下面的指令就可以下载了（下载时记得去掉命令后面的 -c pytorch），然后我们验证一下：

import torch

print(torch.__version__)

torch.cuda.is_available()

1.12.1

True

显示如上信息代表安装成功。

二、我的环境

电脑系统：Windows 11语言环境：Python 3.8.5编译器：Datalore深度学习环境：

torch 1.12.1+cu113torchvision 0.13.1+cu113 显卡及显存：RTX 3070 8G

三、Pytorch简介

PyTorch是由Meta AI(Facebook)人工智能研究小组开发的一种基于Lua编写的Torch库的Python实现的深度学习库，目前被广泛应用于学术界和工业界，相较于Tensorflow2.x，PyTorch在API的设计上更加简洁、优雅和易懂。

PyTorch的主要功能如下所述：

简单的界面 - PyTorch提供易于使用的API; 因此，它在Python上运行，操作非常简单。这个框架中的代码执行非常简单。

Python用法 - PyTorch库认为是Pythonic，可以与Python数据科学堆栈平滑地集成。因此，它可以利用Python环境提供的所有服务和功能。

计算图 - PyTorch提供了一个提供动态计算图的出色平台。因此，用户可以在运行时更改它们。当开发人员不知道创建神经网络模型需要多少内存时，这时非常有用。

PyTorch以三个抽象级别而闻名，如下所示 -

Tensor - 在GPU上运行命令式n维数组。变量 - 计算图中的节点，它存储数据和梯度。模块 - 存储状态或可学习权重的神经网络层。

下面是TensorFlow和PyTorch之间的主要区别：

PyTorchTensorFlowPyTorch与基于lua的Torch框架密切相关，该框架在Facebook中广泛使用。TensorFlow由Google Brain开发，并在Google上积极使用。与其他竞争技术相比，PyTorch相对较新。TensorFlow并不是新的，但许多研究人员和行业专业人士视为一种前沿工具。PyTorch以强制性和动态的方式包含所有内容。TensorFlow包含静态和动态图形作为组合。PyTorch中的计算图是在运行时定义的。TensorFlow不包含任何运行时选项。PyTorch包括针对移动和嵌入式框架的部署。TensorFlow更适用于嵌入式框架。

四、前期工作

1、导入依赖项和设置GPU

如果设备支持GPU就是用GPU，否则就使用CPU：

import torch

import torch.nn as nn

import matplotlib.pyplot as plt

import torchvision

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

2、导入数据

对于MNIST手写数字的数据集，我们可以之间使用Pytorch自带的数据库，调用torchvision.datasets在线下载数据，并且使用该函数参数进行划分训练集和测试集。

# 设置训练集

train_ds = torchvision.datasets.MNIST('data', train=True, transform=torchvision.transforms.ToTensor(), download=True)

# 设置测试集

test_ds = torchvision.datasets.MNIST('data', train=False, transform=torchvision.transforms.ToTensor(), download=True)

其中torchvision.datasets.MNIST函数原型是：

torchvision.datasets.MNIST(root, train=True, transform=None, target_transform=None, download=False)

其中的参数介绍如下：

参数说明root数据地址train设置训练集值等于True，测试集值等于Falsetransform参数选择一个你想要的数据转化函数，直接完成数据转化target_transform接受目标并对其进行转换的函数转换download如果是True，则从互联网上下载数据集，并把数据集放在root目录下

3、加载数据

在导入数据之后我们还需要进行数据的加载：

batch_size = 32

train_dl = torch.utils.data.DataLoader(train_ds,

batch_size=batch_size,

shuffle=True)

test_dl = torch.utils.data.DataLoader(test_ds,

batch_size=batch_size)

# 取一个批次查看数据格式

# 数据的shape为：[batch_size, channel, height, weight]

# 其中batch_size为自己设定，channel，height和weight分别是图片的通道数，高度和宽度。

imgs, labels = next(iter(train_dl))

imgs.shape

torch.Size([32, 1, 28, 28])

其中torch.utils.data.DataLoader函数是Pytorch自带的一个数据加载器，结合了数据集和取样器，并且可以提供多个线程处理数据集，其函数原型是：

torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=None, sampler=None, batch_sampler=None, num_workers=0, collate_fn=None, pin_memory=False, drop_last=False, timeout=0, worker_init_fn=None, multiprocessing_context=None, generator=None, *, prefetch_factor=2, persistent_workers=False, pin_memory_device='')

其中的常用参数介绍如下：

参数说明dataset加载的数据集batch_size每批加载的样本大小（默认值：1）shuffle如果为True，每个epoch重新排列数据sampler定义从数据集中抽取样本的策略。可以是任何实现了 ____len 的 Iterable。如果指定，则不得指定 shufflebatch_sampler类似于sampler，但一次返回一批索引。与 batch_size、shuffle、sampler 和 drop_last 互斥num_workers用于数据加载的子进程数。 0 表示数据将在主进程中加载（默认值：0）pin_memory如果为 True，数据加载器将在返回之前将张量复制到设备/CUDA 固定内存中。如果数据元素是自定义类型，或者collate_fn返回一个自定义类型的批次drop_last如果数据集大小不能被批次大小整除，则设置为 True 以删除最后一个不完整的批次。如果 False 并且数据集的大小不能被批大小整除，则最后一批将保留。（默认值：False）timeout设置数据读取的超时时间，超过这个时间还没读取到数据的话就会报错。（默认值：0）worker_init_fn如果不是 None，这将在步长之后和数据加载之前在每个工作子进程上调用，并使用工作 id（[0，num_workers - 1] 中的一个 int）的顺序逐个导入。（默认：None）

4、数据可视化

import numpy as np

# 指定图片大小，图像大小为20宽、5高的绘图(单位为英寸inch)

plt.figure(figsize=(20, 5))

for i, imgs in enumerate(imgs[:20]):

# 维度缩减

npimg = np.squeeze(imgs.numpy())

# 将整个figure分成2行10列，绘制第i+1个子图。

plt.subplot(2, 10, i+1)

plt.imshow(npimg, cmap=plt.cm.binary)

plt.axis('off')

其中squeeze()函数的功能是从矩阵shape中去掉维度为1的。例如一个矩阵的shape是（5，1），使用过这个函数之后就变成了（5，）。

五、构建简单的CNN网络

对于一般的CNN网络来说，都是由特征提取网络和分类网络构成，其中特征提取网络用于提取图片的特征，分类网络用于将图片进行分类。

nn.Conv2d为卷积层，用于提取图片的特征，传入参数为输入channel，输出channel，池化核大小nn.MaxPool2d为池化层，进行下采样，用更高层的抽象表示图像特征，传入参数为池化核大小nn.ReLU为激活函数，使模型可以拟合非线性数据nn.Linear为全连接层，可以起到特征提取器的作用，最后一层的全连接层也可以认为是输出层，传入参数为输入特征数和输出特征数（输入特征数由特征提取网络计算得到，如果不会计算可以直接运行网络，报错中会提示输入特征数的大小，下方网络中第一个全连接层的输入特征数为1600）nn.Sequential可以按构造顺序连接网络，在初始化阶段就设定好网络结构，不需要在前向传播中重新写一遍

import torch.nn.functional as F

num_classes = 10 # 图片的类别数

class Model(nn.Module):

def __init__(self):

super().__init__()

# 特征提取网络

self.conv1 = nn.Conv2d(1, 32, kernel_size=3) # 第一层卷积,卷积核大小为3*3

self.pool1 = nn.MaxPool2d(2) # 设置池化层，池化核大小为2*2

self.conv2 = nn.Conv2d(32, 64, kernel_size=3) # 第二层卷积,卷积核大小为3*3

self.pool2 = nn.MaxPool2d(2)

# 分类网络

self.fc1 = nn.Linear(1600, 64)

self.fc2 = nn.Linear(64, num_classes)

# 前向传播

def forward(self, x):

x = self.pool1(F.relu(self.conv1(x)))

x = self.pool2(F.relu(self.conv2(x)))

x = torch.flatten(x, start_dim=1)

x = F.relu(self.fc1(x))

x = self.fc2(x)

return x

加载并打印模型：

from torchinfo import summary

model = Model().to(device)

summary(model)

打印的结果是：

=================================================================

Layer (type:depth-idx) Param #

=================================================================

Model --

├─Conv2d: 1-1 320

├─MaxPool2d: 1-2 --

├─Conv2d: 1-3 18,496

├─MaxPool2d: 1-4 --

├─Linear: 1-5 102,464

├─Linear: 1-6 650

=================================================================

Total params: 121,930

Trainable params: 121,930

Non-trainable params: 0

=================================================================

六、训练模型

1、设置超参数

# 创建损失函数

loss_fn = nn.CrossEntropyLoss()

# 设置学习率

learn_rate = 1e-2

# 设置优化器

opt = torch.optim.SGD(model.parameters(), lr=learn_rate)

2、编写训练函数

# 训练循环

def train(dataloader, model, loss_fn, optimizer):

size = len(dataloader.dataset) # 训练集的大小，一共60000张图片

num_batches = len(dataloader) # 批次数目，1875（60000/32）

train_loss, train_acc = 0, 0 # 初始化训练损失和正确率

for X, y in dataloader: # 获取图片及其标签

X, y = X.to(device), y.to(device)

# 计算预测误差

pred = model(X) # 网络输出

loss = loss_fn(pred, y) # 计算网络输出和真实值之间的差距，targets为真实值，计算二者差值即为损失

# 反向传播

optimizer.zero_grad() # grad属性归零

loss.backward() # 反向传播

optimizer.step() # 每一步自动更新

# 记录acc与loss

train_acc += (pred.argmax(1) == y).type(torch.float).sum().item()

train_loss += loss.item()

train_acc /= size

train_loss /= num_batches

return train_acc, train_loss

介绍其中的几个函数：

optimizer.zero_grad() 函数会遍历模型的所有参数，通过内置方法截断反向传播的梯度流，再将每个参数的梯度值设为0，即上一次的梯度记录被清空。 loss.backward() PyTorch的反向传播(即tensor.backward())是通过autograd包来实现的，autograd包会根据tensor进行过的数学运算来自动计算其对应的梯度。具体来说，torch.tensor是autograd包的基础类，如果你设置tensor的requires_grads为True，就会开始跟踪这个tensor上面的所有运算，如果你做完运算后使用tensor.backward()，所有的梯度就会自动运算，tensor的梯度将会累加到它的.grad属性里面去。更具体地说，损失函数loss是由模型的所有权重w经过一系列运算得到的，若某个w的requires_grads为True，则w的所有上层参数（后面层的权重w）的.grad_fn属性中就保存了对应的运算，然后在使用loss.backward()后，会一层层的反向传播计算每个w的梯度值，并保存到该w的.grad属性中。如果没有进行tensor.backward()的话，梯度值将会是None，因此loss.backward()要写在optimizer.step()之前。 optimizer.step() step()函数的作用是执行一次优化步骤，通过梯度下降法来更新参数的值。因为梯度下降是基于梯度的，所以在执行optimizer.step()函数前应先执行loss.backward()函数来计算梯度。注意：optimizer只负责通过梯度下降进行优化，而不负责产生梯度，梯度是tensor.backward()方法产生的。

3、编写测试函数

测试函数和训练函数大致相同，但是由于不进行梯度下降对网络权重进行更新，所以不需要传入优化器。

def test (dataloader, model, loss_fn):

size = len(dataloader.dataset) # 测试集的大小，一共10000张图片

num_batches = len(dataloader) # 批次数目，313（10000/32=312.5，向上取整）

test_loss, test_acc = 0, 0

# 当不进行训练时，停止梯度更新，节省计算内存消耗

with torch.no_grad():

for imgs, target in dataloader:

imgs, target = imgs.to(device), target.to(device)

# 计算loss

target_pred = model(imgs)

loss = loss_fn(target_pred, target)

test_loss += loss.item()

test_acc += (target_pred.argmax(1) == target).type(torch.float).sum().item()

test_acc /= size

test_loss /= num_batches

return test_acc, test_loss

4、正式训练

epochs = 5

train_loss = []

train_acc = []

test_loss = []

test_acc = []

for epoch in range(epochs):

model.train()

epoch_train_acc, epoch_train_loss = train(train_dl, model, loss_fn, opt)

model.eval()

epoch_test_acc, epoch_test_loss = test(test_dl, model, loss_fn)

train_acc.append(epoch_train_acc)

train_loss.append(epoch_train_loss)

test_acc.append(epoch_test_acc)

test_loss.append(epoch_test_loss)

template = ('Epoch:{:2d}, Train_acc:{:.1f}%, Train_loss:{:.3f}, Test_acc:{:.1f}%，Test_loss:{:.3f}')

print(template.format(epoch+1, epoch_train_acc*100, epoch_train_loss, epoch_test_acc*100, epoch_test_loss))

print('Done')

训练的结果是：

Epoch: 1, Train_acc:76.9%, Train_loss:0.762, Test_acc:91.8%，Test_loss:0.271

Epoch: 2, Train_acc:94.0%, Train_loss:0.198, Test_acc:95.0%，Test_loss:0.159

Epoch: 3, Train_acc:96.3%, Train_loss:0.123, Test_acc:97.3%，Test_loss:0.087

Epoch: 4, Train_acc:97.2%, Train_loss:0.093, Test_acc:97.6%，Test_loss:0.073

Epoch: 5, Train_acc:97.5%, Train_loss:0.078, Test_acc:98.0%，Test_loss:0.064

Done

介绍其中的几个函数：

model.train() 它的作用是启用 Batch Normalization 和 Dropout。如果模型中有BN层(Batch Normalization）和Dropout，需要在训练时添加model.train()。model.train()是保证BN层能够用到每一批数据的均值和方差。对于Dropout，model.train()是随机取一部分网络连接来训练更新参数。 model.eval() 它的作用是不启用 Batch Normalization 和 Dropout。如果模型中有BN层(Batch Normalization）和Dropout，在测试时添加model.eval()。model.eval()是保证BN层能够用全部训练数据的均值和方差，即测试过程中要保证BN层的均值和方差不变。对于Dropout，model.eval()是利用到了所有网络连接，即不进行随机舍弃神经元。训练完train样本后，生成的模型model要用来测试样本。在model(test)之前，需要加上model.eval()，否则的话，有输入数据，即使不训练，它也会改变权值。这是model中含有BN层和Dropout所带来的的性质。

七、结果可视化

#隐藏警告

import warnings

warnings.filterwarnings("ignore") #忽略警告信息

plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签

plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号

plt.rcParams['figure.dpi'] = 100 #分辨率

epochs_range = range(epochs)

plt.figure(figsize=(12, 3))

plt.subplot(1, 2, 1)

plt.plot(epochs_range, train_acc, label='Training Accuracy')

plt.plot(epochs_range, test_acc, label='Test Accuracy')

plt.legend(loc='lower right')

plt.title('Training and Validation Accuracy')

plt.subplot(1, 2, 2)

plt.plot(epochs_range, train_loss, label='Training Loss')

plt.plot(epochs_range, test_loss, label='Test Loss')

plt.legend(loc='upper right')

plt.title('Training and Validation Loss')

plt.show()

八、最后我想说

作为一门新的深度学习框架，首先我们需要去阅读官方文档中的各种函数介绍，学习该函数的作用和用法，然后再去学习其他大佬的代码，从中学到知识，相比与Tensorflow，我更愿意去学习Pytorch，我这里有《动手学深度学习》的Pytorch版本的pdf，有需要的朋友可以留言，我也会去认真的学习这本书的。

另外，我还想说的是，本次学习使用的编译器是JetBrains公司新出一个云端机器学习开发环境Datalore，我的初次使用体验感觉挺好用的，它还有很多强大的功能我目前还没有去使用过，感兴趣的朋友可以去试试看。

它还可以将你写的文件生成在线链接发布成公告，这样也方便别人在线去查看你的报告，这是我生成的报告地址可以去看看：https://datalore.jetbrains.com/view/report/Hsi5StsSBdVdnEIyrjc6p8

精彩内容

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

深度学习 pytorch 人工智能

本文由用户于 2024-05-21 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/15782499.html

金钥匙

人工智能深度学习 Day24——使用Pytorch环境实现mnist手写数字识别

人工智能 python pytorch 2.0初探：和pytorch 1.13的速度对比

kubernetes java 容器云原生期待已久：K8S终于迎来交换内存Beta支持！

发表评论取消回复

金钥匙

人工智能 深度学习 Day24——使用Pytorch环境实现mnist手写数字识别

人工智能 python pytorch 2.0初探：和pytorch 1.13的速度对比

kubernetes java 容器 云原生 期待已久：K8S终于迎来交换内存Beta支持！

相关文章

发表评论取消回复

人工智能深度学习 Day24——使用Pytorch环境实现mnist手写数字识别

kubernetes java 容器云原生期待已久：K8S终于迎来交换内存Beta支持！