logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

天池-新闻文本分类-task1机器学习算法(未完待续)

一、文本挖掘原理1 分词的基本原理  现代分词都是基于统计的分词,而统计的样本内容来自于一些标准的语料库。假如有一个句子:“小明来到荔湾区”,我们期望语料库统计后分词的结果是:“小明/来到/荔湾/区”,而不是“小明/来到/荔/湾区”。那么如何做到这一点呢?  从统计的角度,我们期望"小明/来到/荔湾/区"这个分词后句子出现的概率要比“小明/来到/荔/湾区”大。如果用数学的语言来说说,如果有一个句子

#机器学习#算法#分类
CLUENER 细粒度命名实体识别,附完整代码

CLUENER 细粒度命名实体识别一、任务说明:最开始是参考知乎文章《用BERT做NER?教你用PyTorch轻松入门Roberta!》,github项目地址:《hemingkx/CLUENER2020》任务介绍:本任务是中文语言理解测评基准(CLUE)任务之一:《CLUE Fine-Grain NER》。数据来源:本数据是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命

#r语言#深度学习#pytorch
paddle学习赛——钢铁目标检测(yolov5、ppyoloe+,Faster-RCNN)

PaddleDetection:分别使用ppyoloe+、FasterRCNN+swin进行训练;另外还试了Yolov5和.PaddleX框架的fasterrcnn

#目标检测#paddle
资源分享(nlp、kaggle、pytorch、datawhale)

收藏了各种文章、github资源、赛事top方案等等

文章图片
#pytorch#自然语言处理#深度学习
天池-新闻文本分类-task2 fasttext

FastText:快速的文本分类器一、word2vec参考文档《word2vec原理和gensim实现》1.1 word2vec为什么 不用现成的DNN模型最主要的问题是DNN模型的这个处理过程非常耗时。我们的词汇表一般在百万级别以上,从隐藏层到输出的softmax层的计算量很大,因为要计算所有词的softmax概率,再去找概率最大的值。解决办法有两个:霍夫曼树和负采样。对于从输入层到隐藏层的映射

分享吴恩达机器学习视频和300页word学习笔记,以及深度学习五门课视频及700页word笔记

我也是从今年开始学人工智能 ,我的习惯是每听一门课就得做笔记。以前的python入门课、数据分析、算法课都做了,那个有时间再分享。吴恩达的机器学习和深度学习课视频qishihenduodifan

文章图片
#机器学习#深度学习
Power Query精通指南3:数据库(查询折叠与数据隐私)、批量合并文件、自定义函数

当源数据文件夹中的文件数量不断增加时,刷新速度会越来越慢。假设一个解决方案运行了10年,每年有16个数据文件(4个区域 x 4个季度),到2030年时,需要处理的文件数量将超过176个。如果每个文件需要5秒钟来刷新,那么总刷新时间将超过14分钟,这会显著影响用户体验。其实用户完全没必要分析那么多数据,比如业务只需要与前一年的数据进行比较,那么可以通过按日期的降序对文件进行排序,并使用【保留最前面几

文章图片
#数据库#powerbi
SQL Server基础语句1:基础查询、数据筛选 / 排序 、分组聚合

SQL Server是微软开发的关系型数据库管理系统(RDBMS),支持Windows和Linux平台。其核心架构包括数据库引擎(关系引擎和存储引擎)和SQLOS操作系统服务层。SQL Server提供丰富的数据管理和商业智能工具,如SSIS、SSAS、SSRS等,以及Python/R机器学习支持。主要版本包括免费的Developer/Express版,以及Enterprise/Standard/

文章图片
#数据库#sql
PowerBI窗口函数与视觉计算

本节使用Power BI Desktop 的 Contoso 销售示例文件参考《使用视觉计算(预览版)》《在 Power BI Desktop 中创建视觉计算》视觉计算是一种直接在视觉对象上定义和执行的 DAX 计算。与传统 DAX 计算不同,视觉计算不存储在模型中,而是存储在视觉对象上,只能引用视觉对象上的内容(包括列、度量值或其他视觉对象计算),这意味着视觉对象计算不必担心筛选器上下文和模型的

文章图片
#powerbi#数据库
    共 56 条
  • 1
  • 2
  • 3
  • 6
  • 请选择