CLBTH 个人主页

@slcod

CLBTH

2023-10-23 10:15:02 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

机器学习笔记--1.4特征间的相关性

1.相关系数与相关距离from numpy import *featuremat = mat([[88.5, 96.8, 104.1, 111.3, 117.7, 124.0, 130.0, 135.4, 140.2, 145.3, 151.9, 159.5, 165.9, 169.8, 171.6, 172.3, 172.7], [12.54, 14.65, 16.64, 18.98, 21.2

#机器学习 #人工智能 #python

机器学习笔记--2.1文本分类

从分类算法层面来看，各类语言的文本分类技术大同小异，但从整个流程来考察，不同语言的文本处理所用到的技术还是有差别的。下面给出中文语言的文本分类技术和流程，主要包括以下几个步骤：（1）预处理：去除文本的噪声信息，例如HTML标签、文本格式转换、检测句子边界等。（2）中文分词：使用中文分词器为文本分词，并去除停用词。（3）构建词向量空间：统计文本词频，生成文本的词向量空间。（4）权重策略——TF-ID

Counter目的是用来跟踪值出现的次数。它是一个无序的容器类型，以字典的键值对形式存储，其中元素作为key，其计数作为value。计数值可以是任意的Interger（包括0和负数）。Counter类和其他语言的bags或multisets很相似。创建下面的代码说明了Counter类创建的四种方法：Counter类的创建>>> c = Counter()# 创建一个空的Count

#python #开发语言 #后端

到底了