【机器学习】支持向量机SVM | python实现 | 分类问题

SVM实现分类问题

今天一定要洛必达

2596人浏览 · 2022-09-01 23:09:39

今天一定要洛必达 · 2022-09-01 23:09:39 发布

一、SVM基础概念

1.1.SVM常用几种模型

1.SVC，（分类问题）
2.SVR，（回归问题）
3.LinearSVC
4.LinearSVR
5…其他等等

二、具体案例——鸢（yuan）尾花分类（分类问题）

2.1.实现代码（datasets直接导入）

代码如下（示例）：

from sklearn import datasets #导入数据集模块
from sklearn.model_selection import train_test_split #数据集划分
from sklearn import svm  #导入SVM支持向量机
from sklearn.metrics import classification_report   #用于显示主要分类指标的文本报告
import sklearn.metrics as sm #生成混淆矩阵的库
import seaborn as sn  #混淆矩阵可视化的库
import matplotlib.pyplot as plt #画图
#--------------------------------1.加载数据集---------------------------------#
iris = datasets.load_iris()#加载鸢尾花数据集
print(iris)
X = iris.data #输入特征
Y = iris.target #标签（输出特征）
print(X)
print('----------------')
print(Y)
print('----------------')
print('鸢尾花输入特征的维度是{}'.format(X.shape))
print('鸢尾花标签的维度是{}'.format(Y.shape))

#--------------------------------2.划分数据集---------------------------------#
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=45) # 数据划分
#--------------------------------3.模型训练---------------------------------#
clas = svm.SVC()#选择分类器
clas.fit(X_train,Y_train)#训练
#--------------------------------4.模型预测---------------------------------#
Y_pre=clas.predict(X_test)#预测测试集

#--------------------------------5.性能评估---------------------------------#
m = sm.confusion_matrix(Y_test, Y_pre) #生成混淆矩阵
print('混淆矩阵为：', m, sep='\n')
ax = sn.heatmap(m,annot=True,fmt='.20g')
ax.set_title('confusion matrix')
ax.set_xlabel('predict')
ax.set_ylabel('true')
plt.show() #混淆矩阵可视化
print("测试集准确率：%s"%clas.score(X_test,Y_test))   #输出测试集准确度
print("分析报告:",classification_report(Y_test,Y_pre))#生成分类报告

混淆矩阵可视化：
在这里插入图片描述
对角线上的部分说明分类正确，第三行第二列的1表示有一个错了，真实类别为2，但是预测为了1

测试集准确率和分类分析报告：
在这里插入图片描述、

三.其他基础算法学习

3.1.数据集划分函数train_test_split

首先看下它的构造
在这里插入图片描述
它的功能主要是用来划分数据的，按比例划分。
实际例子如下：

from sklearn.model_selection import train_test_split #数据集划分

X=[[1,2],[2,3],[3,4],[4,5],[5,6]]
Y=[0,0,1,0,1]
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2,random_state=42) # 数据划分
print(X_train)
print(X_test)
print(Y_train)
print(Y_test)

结果：
在这里插入图片描述
其中有几个参数重点强调一下：
1.test_size=0.2意思是测试集占比为0.2
2.random_state=42。这个是随机数种子的意思，最开始它的作用我也理解了好久。简单的说，就是必须给它赋值，不然每一次划分出来的数据集是不一样的，这对后面各个算法测评该数据集具有很严重的影响（要评价哪一种算法好，数据集必须先保持一致。）至于取多少，网上很多人取42.

亚马逊云科技技术品牌专区

更多推荐

STM32节点移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）

STM32移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）前言前言在移植协议之前，先给大家科普一下Lora 和 lorawan 的区别。LoRa 是LPWAN通信技术中的一种，是美国Semtech公司采用和推广的一种基于扩频技术的超远距离无线传输方案。这一方案改变了以往关于传输距离与功耗的折衷考虑方式为用户提供一种简单的能实现远距离、长电池寿命、大容量的系统，进而扩...

亚马逊云科技技术品牌专区

物联网主机E6000引领工业自动化的新篇章

亚马逊云科技技术品牌专区

搞 IoT 物联网，你居然要懂这么多种协议...

物联网协议是指在物联网环境中用于设备间通信和数据传输的协议。根据不同的作用，物联网协议可分为传输协议、通信协议和行业协议。传输协议：一般负责子网内设备间的组网及通信。例如 Wi-Fi、Ethernet、NFC、 Zigbee、Bluetooth、GPRS、3G/4G/5G等。这些协议能够确保在网络上传输的数据的安全性和可靠性。通讯协议：主要是运行在传统互联网TCP/IP协议之上的设备通讯协议，负责