logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

NLP之新闻文本分类——Task5

Tsak5——基于深度学习的文本分类Word2vec1.词向量本节通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,我们选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此word2vec模型可以方便地从新增语料中学习到新增词的向量表达,是一种高效的在线学习算法( online learning

#人工智能#深度学习#机器学习 +1
NLP之新闻文本分类——Task2

Task2——数据读取与数据分析1.学习目标学习使用Pandas读取赛题数据分析赛题数据的分布规律2.数据读取这里的read_csv由三部分构成:读取的文件路径,这里需要根据改成你本地的路径,可以使用相对路径或绝对路径;分隔符sep,为每列分割的字符,设置为\t即可;读取行数nrows,为此次读取文件的函数,是数值类型(由于数据集比较大,建议先设置为100);import pandas as pd

#python#数据分析
NLP之新闻文本分类——Task3

Task3——基于机器学习的文本分类1.⽂本表示方法这里插入一下word2vec,在讲word2vec的过程中一般要对one-hot进行介绍,这里推荐一篇文章,很详细的揭示了文本表示的本质(主要是word2vec)。秒懂词向量word2vec的本质1.1 One-hot这里的One-hot与数据挖掘任务中的操作是一致的,即将每一个单词使用一个离散的向量表示。具体将每个字/词编码一个索引,然后根据索

#机器学习#python#自然语言处理 +1
Datawhale零基础入门数据挖掘—Task2数据分析

EDA-数据探索性分析非常感谢Datawhale的组队学习活动,让我这个零基础的小白也能够有机会亲身的接触一下数据挖掘,走完一个流程这次使用的是天池实验室,路线的话主要是根据datawhale发布的《零基础入门数据挖掘》教程来走。下面是EDA的部分。1.载入各种数据科学以及可视化库#coding:utf-8#导入warnings包,利用过滤器来实现忽略警告语句。import wa...

#数据挖掘#数据分析#机器学习 +1
Datawhale零基础入门数据挖掘-Task5模型融合(完结篇)

模型融合一 内容介绍模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式。简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank averaging),log融合stacking/blending:构建多层模型,并利用预测结果再拟合预测。boostin...

#数据挖掘#算法#python +2
Datawhale零基础入门数据挖掘-Task4建模调参

1 学习目标了解常用的机器学习模型,并掌握机器学习模型的建模与调参流程2 内容介绍线性回归模型:线性回归对于特征的要求;处理长尾分布;理解线性回归模型;模型性能验证:评价函数与目标函数;交叉验证方法;留一验证方法;针对时间序列问题的验证;绘制学习率曲线;绘制验证曲线;嵌入式特征选择:Lasso回归;Ridge回归;决策树;模型对比:常用线性模型;常用非线...

#数据挖掘#python#机器学习 +1
到底了