logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

spark mllib HashingTF解析

在处理文本数据,尤其是自然语言处理的场景中,hashingTF使用的比较多;Mllib使用hashing trick实现词频。元素的特征应用一个hash`函数映射到一个索引(即词),通过这个索引计算词频。这个方法避免计算全局的词-索引映射,因为全局的词-索引映射在大规模语料中花费较大。但是,它会出现哈希冲突,这是因为不同的元素特征可能得到相同的哈希值。为了减少碰撞冲突,我们可以增加目标特征的维..

#spark#mllib
spark 问题

spark on yarn 问题spark通过yarn提交任务,任务没跑就停止了,8088页面显示成功,点击history显示Shutdown hook called before final status was reported.查看了很久才发现,数据对接的数据格式改变了,我程序中有if(StringUtils.isBlank(difference)){Sys

spark streaming 读取kafka 配置

使用SparkStreaming集成kafka时有几个比较重要的参数:(1)spark.streaming.stopGracefullyOnShutdown (true / false)默认fasle确保在kill任务时,能够处理完最后一批数据,再关闭程序,不会发生强制kill导致数据处理中断,没处理完的数据丢失(2)spark.streaming.backpressure.enable

#spark#kafka
spark读取mongodb

Spark-mongodb:Spark操作mongodb的api提供了RDD和dataSet、DataFrame读取方式。关键看你的spark的使用版本,第三方依赖包的下载见mongodb官网def load[D: ClassTag](sc: SparkContext, readConfig: ReadConfig)(implicit e: D DefaultsTo Document): M

#mongodb#spark
spark好友推荐

好友推荐:有好多推荐方式,比如根据兴趣爱好去推荐,根据朋友的盆友去推荐等等,这里不再赘述,这个比较经典的问题,大家肯定都知道吧,或许很多人指导用hadoop怎么去实现,这个问题如果用hadoop去实现,得用至少两次mapreduce去实现吧,这里先不去说明hadoop怎么去实现的,先看看数据,然后用spark去实现。小明老王如花林志玲老王小明凤姐如花小明李刚

#spark#hadoop#mapreduce
spark批量写入redis

最近工作中,在融合数据的时候,需要将10亿+的记录push到redis中,运维的同学帮忙搭建好redis集群,100主 + 100 从 (单节点8G),最开始打算第一次批量写入使用spark去写入到redis,因为数据存放在Hive表。一、相关依赖的jar包compile group: 'com.redislabs', name: 'spark-redis', version: '2.3.0'..

#spark#redis
spark java.lang.OutOfMemory, unable to create new native thread

如果出现如下错误:java.lang.OutOfMemory, unable to create new native threadCaused by: java.lang.OutOfMemoryError: unable to create new native threadat java.lang.Thread.start0(Native Method)at java.lang.

#spark
spark java.lang.OutOfMemory, unable to create new native thread

如果出现如下错误:java.lang.OutOfMemory, unable to create new native threadCaused by: java.lang.OutOfMemoryError: unable to create new native threadat java.lang.Thread.start0(Native Method)at java.lang.

#spark
java 获取kafka offsets(偏移量)

public KafkaInfoClient(){init();}public Map<Integer,Long> getEarliestOffset(String topic) {//kafka.api.OffsetRequest.EarliestTime() = -2return getTopicOffset(topic,k

#java#kafka
那些年用过的时间衰减函数

在我们日常的应用中时间衰减函数无处不在,比如避免出现犹太反应(强者愈强,弱者愈弱)各种排行榜;通常我们希望某些指标如文章热度、电影评分随着时间的漂移越来越低或者随着时间的衰减出现一个系数能拟合这一过程,比较出名的就是牛顿冷却定律。一、刚开始接触时间衰减,是在使用elasticsearch的过程中对function_score函数的使用function_score支持的衰减函数有三种,分别是 l..

到底了