logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

分词工具比较及使用(ansj、hanlp、jieba)

一、分词工具ansj、hanlp、jieba二、优缺点1.ansj优点:  提供多种分词方式  可直接根据内部词库分出人名、机构等信息  可构造多个词库,在分词时可动态选择所要使用的词库缺点:  自定义词典时,系统词典还是被优先使用,导致词性不是自定义词典中的词性  多单词英文姓名无法分出适用场景  若不使用自定义分词,可直接使用ansj2.hanlp优点:  自定义分词、词性方便...

#自然语言处理#人工智能#nlp
Kafka-为什么选择kafka(kafka的优点)

Kafka-为什么选择kafka(kafka的优点)多个生产者kafka可以无缝的支持多个生产者,不管客户端在使用单个主题还是多个主题。所以它很适合用来从多个前端系统手机数据,并以同一的格式对外提供数据。例如:一个包含了多个微服务的网站,可以为页面视图创建一个单独的主题,所有服务都以相同的消息格式向该主题写入数据。消费者应用程序会获得统一的页面视图,而无需协调来自不同生产者的数据流。多个...

#kafka#java#分布式 +2
机器学习-推荐系统-协同过滤(基于用户、物品的协同过滤、SVD原理及使用)

机器学习-推荐系统-协同过滤协同过滤(Collaborative Filtering, CF)基于协同过滤的推荐,它的原理很简单,就是根据用户对物品或者信息的偏好,发现物品或者内容本身的相关性,或者发现用户的相关性,然后再基于这些相关性进行推荐。基于协同过滤的推荐可以分为两个简单的子类:基于用户的推荐(User-based Recommendation)和基于项目的推荐(Item-based...

#机器学习#聚类#python +2
机器学习-决策树-C4.5决策树

机器学习-决策树-C4.5决策树针对ID3算法存在的一些问题,1993年,Quinlan将ID3算法改进为C4.5算法。该算法成功地解决了ID3算法遇到的诸多问题,发展成为机器学习的十大算法之一。C4.5并没有改变ID3的算法逻辑,基本的程序结构仍与ID3相同,但在节点的划分标准上做了改进。C4.5使用信息增益率(GainRatio)来替代信息增益(Gain)进行特征的选择,克服了信息增益选...

#决策树#机器学习#python +2
Oozie java.io.IOException: output.properties data exceeds its limit [2048]

在使用oozie调用sqoop时,报了下边这个错Launcher AM execution failedjava.io.IOException: output.properties data exceeds its limit [2048]at org.apache.oozie.action.hadoop.LocalFsOperations.getLocalFileContent...

#java#hadoop#开发语言 +2
Hudi-数据写操作流程

概述在hudi数据湖框架中支持三种方式写入数据:UPSERT(插入更新)、INSERT(插入)和BULK INSERT(写排序)UPSERT:默认行为,数据先通过index打标(INSERT/UPDATE),有一些启发式算法决定消息的组织以优化文件的大小INSERT:跳过index,写入效率更高BULK_INSERT:写排序,对大数据量额hudi表初始化友好,对文件大小的限制best...

ClickHouse-数据一致性

  在生产环境中,数据一致性的重要性,不论如何强调都不过分。而 ClickHouse 在进行数据变更时,都会产生一个临时分区,而不会更改原始数据文件,对数据文件的修改操作会要等到数据合并时才进行。所以 ClickHouse 只能保证数据的最终一致性,而不能保证强一致性。很可能数据变更后,程序通过 ClickHouse 查到之前的错误数据。因此使用 ClickHouse ,要尽量避免数据的增删改..

#分布式#zookeeper#java +2
数据挖掘-数据集成

数据集成数据挖掘经常需要数据集成--合并来自多个数据存储的数据。小心仔细的集成有助于减少结果数据集的冗余和不一致。这有助于提高后续挖掘过程的准确性和速度。数据语义的多样性和结构对数据集成提出了巨大的挑战。数据集成将多个数据源中的数据合并,存放在一个一致的数据存储中,如存放在数据仓库中。这些数据源可能包括多个数据库、数据立方体或一般文件。1.实体识别问题来自多个信息源的等价实体如何才能匹配,...

#数据挖掘#数据仓库#数据分析 +1
数据仓库-数据集市

数据仓库-数据集市概念数据集市是数据仓库的一种简单形式,通常由组织内的业务部门自己建立和控制。一个数据集市面向单一主题域,如销售、财务、市场等。数据集市的数据源可以是操作型系统(独立数据集市),也可以是企业级数据仓库(从属数据集市)。与数仓区别范围数仓:企业级数据集市:部门级或业务线主题数仓:多个主题数据集市:单一主题数据源数仓:遗留系统、事务系统、外部数据的多个数据源数...

#数据仓库#big data#数据挖掘 +2
数据仓库-维度模型(模型类型、建模过程)

数据仓库-维度模型描述Dimensional Modeling,简称DM,是一套技术和概念的集合,用于数据仓库设计核心概念事实表示对业务数据的度量通常是数字类型的,可以进行聚合和计算维度对观察数据的角度一组层次关系或描述信息,用来定义事实举例:销售金额是一个事实,而销售时间、销售的产品、购买的顾客、商店等都是销售事实的维度。维度模型按照业务流程领域即主题域简历,例如进货、销...

#数据仓库#数据挖掘#big data +2
    共 13 条
  • 1
  • 2
  • 请选择