MNIST数据集简单介绍
·
目录
MINST数据集是机器学习领域一个经典的数据集,其中包括70000个样本,包括60000个训练样本和10000个测试样本
数据集的引入
使用tensorflow
框架,通过keras
获取MNIST数据集:
mnist = tf.keras.datasets.mnist
通过load_data()
方法来加载数据集中的数据
获取到的数据以tuple
的格式进行存储,格式为:
(训练样本数据集,训练标签数据集),(测试样本数据集,测试标签数据集)
因此用相应的元组来接收数据:
(x_train, y_train), (x_test, y_test) = mnist.load_data()
数据集的格式
以上四个数据集的格式都为:numpy.ndarray
,ndarray是一个N维数组类型的对象,可以打印数据集的相关属性进行查看:
print("训练样本的维度为:",x_train.ndim)
print("训练样本的形状为:",x_train.shape)
print("训练样本的元素数量为:",x_train.size)
print("训练样本的数据类型为:",x_train.dtype)
结果如下:
通过其形状可以看出训练样本数据集存放了60000张28*28像素的数字图像;
数据集的内容
可以通过以下代码打印查看其中存储的图像:
for i in range(0,28):
for j in range(0,28):
print("%.1f" % x_train[0][i][j] , end=" ")
print()
结果如下:
很明显能看出这是一个数字5
由于数据集中每一个像素的值都在0-255
范围内,我们对数据进行归一化处理,转化为0-1
之间的浮点数:
x_train, x_test = x_train / 255.0, x_test / 255.0
可以看到,处理之后数据类型发生了变化:
再次打印输出存储的图像,依稀也能看出是一个数字5
:
阅读全文
AI总结
更多推荐
相关推荐
查看更多
DeepSeek-V3-0324

DeepSeek最新推出DeepSeek-V3-0324版本,参数量从6710亿增加到6850亿,在数学推理、代码生成能力以及长上下文理解能力方面直线飙升。
javascript

JavaScript 编程指南。
Python

All Algorithms implemented in Python
所有评论(1)