
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
一、文本挖掘原理1 分词的基本原理 现代分词都是基于统计的分词,而统计的样本内容来自于一些标准的语料库。假如有一个句子:“小明来到荔湾区”,我们期望语料库统计后分词的结果是:“小明/来到/荔湾/区”,而不是“小明/来到/荔/湾区”。那么如何做到这一点呢? 从统计的角度,我们期望"小明/来到/荔湾/区"这个分词后句子出现的概率要比“小明/来到/荔/湾区”大。如果用数学的语言来说说,如果有一个句子
本文是《AI快车道PaddleNLP系列直播课》学习笔记,暂未完结
CLUENER 细粒度命名实体识别一、任务说明:最开始是参考知乎文章《用BERT做NER?教你用PyTorch轻松入门Roberta!》,github项目地址:《hemingkx/CLUENER2020》任务介绍:本任务是中文语言理解测评基准(CLUE)任务之一:《CLUE Fine-Grain NER》。数据来源:本数据是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命
PaddleDetection:分别使用ppyoloe+、FasterRCNN+swin进行训练;另外还试了Yolov5和.PaddleX框架的fasterrcnn
收藏了各种文章、github资源、赛事top方案等等

FastText:快速的文本分类器一、word2vec参考文档《word2vec原理和gensim实现》1.1 word2vec为什么 不用现成的DNN模型最主要的问题是DNN模型的这个处理过程非常耗时。我们的词汇表一般在百万级别以上,从隐藏层到输出的softmax层的计算量很大,因为要计算所有词的softmax概率,再去找概率最大的值。解决办法有两个:霍夫曼树和负采样。对于从输入层到隐藏层的映射
我也是从今年开始学人工智能 ,我的习惯是每听一门课就得做笔记。以前的python入门课、数据分析、算法课都做了,那个有时间再分享。吴恩达的机器学习和深度学习课视频qishihenduodifan

当源数据文件夹中的文件数量不断增加时,刷新速度会越来越慢。假设一个解决方案运行了10年,每年有16个数据文件(4个区域 x 4个季度),到2030年时,需要处理的文件数量将超过176个。如果每个文件需要5秒钟来刷新,那么总刷新时间将超过14分钟,这会显著影响用户体验。其实用户完全没必要分析那么多数据,比如业务只需要与前一年的数据进行比较,那么可以通过按日期的降序对文件进行排序,并使用【保留最前面几

SQL Server是微软开发的关系型数据库管理系统(RDBMS),支持Windows和Linux平台。其核心架构包括数据库引擎(关系引擎和存储引擎)和SQLOS操作系统服务层。SQL Server提供丰富的数据管理和商业智能工具,如SSIS、SSAS、SSRS等,以及Python/R机器学习支持。主要版本包括免费的Developer/Express版,以及Enterprise/Standard/

本节使用Power BI Desktop 的 Contoso 销售示例文件参考《使用视觉计算(预览版)》《在 Power BI Desktop 中创建视觉计算》视觉计算是一种直接在视觉对象上定义和执行的 DAX 计算。与传统 DAX 计算不同,视觉计算不存储在模型中,而是存储在视觉对象上,只能引用视觉对象上的内容(包括列、度量值或其他视觉对象计算),这意味着视觉对象计算不必担心筛选器上下文和模型的
