sparkexpert 个人主页

@sparkexpert

sparkexpert

2022-07-08 17:22:57 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

spark redis 中碰到java.net.SocketTimeoutException: Read timed out问题的解决

最近在写入redis的时候，程序跑着跑着会发现碰到这样的问题。redis.clients.jedis.exceptions.JedisConnectionException: java.net.SocketTimeoutException: Read timed outat redis.clients.util.RedisInputStream.ensureFill(RedisInp

#spark #redis

神经网络在关系抽取中的应用

一、关系抽取简介信息抽取的主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据（Structuring），关系抽取是其重要的子任务，主要负责从文本中识别出实体（Entities)，抽取实体之间的语义关系。如：句子“Bill Gates is the founder of MicrosoftInc.”中包含一个实体对(Bill Gates, Microsoft Inc.)，这两个

#神经网络

spark 从HIVE读数据导入hbase中发生空指针(java.lang.NullPointerException)问题的解决

陆续好多人会问，在写入Hbase的时候总是会出现空指针的问题，而检查程序，看起来一点也没有错。如报的错误大致如下：Error: application failed with exceptionjava.lang.RuntimeException: java.lang.NullPointerException at org.apache.hadoop.hbase.cl

#spark #hbase #hive

tableau桌面版连接spark sql的测试

Tableau是一款优秀的数据可视化分析软件，这几天安装之后，感觉它不仅可以实现对各种数据的可视化绘制操作，并支持多个视图按照故事进行组织，同时具有强大的数据连接操作。支持各种数据源。当然最强大的肯定还是它的server版，可以实现与desktop版的无缝对接。Tableau支持多种数据源的对接，从其官方文档上可以看出，它几乎支持当前主流的各种工具。Excelon page 1

spark dataframe新增列的处理

往一个dataframe新增某个列是很常见的事情。然而这个资料还是不多，很多都需要很多变换。而且一些字段可能还不太好添加。不过由于这回需要增加的列非常简单，倒也没有必要再用UDF函数去修改列。利用withColumn函数就能实现对dataframe中列的添加。但是由于withColumn这个函数中的第二个参数col必须为原有的某一列。所以默认先选择了个ID。

#hive

spark批量读取大量小文件的办法

在实际工程中，经常会遇到要一起读取众多小文件的办法。本来正常情况下是进行文件夹的遍历。幸运的是，spark原生是支持这种功能的。它可以批量地读取众多的文件，也可以按照一定的方式进行过滤。命令十分简单。如下：sc.textfile("/dir/*.txt")其中DIR就是路径，而＊.txt则是对某种类型的文件进行过滤。通过这种方式，可以直接实现对众

#spark

spark master开发中org.apache.spark.serializer.JavaDeserializationStream错误解决

在spark开发过程中，一直想在程序中进行master的开发，如下代码：val conf = new SparkConf().setMaster("spark://hostname:7077").setAppName("Spark Pi")但是直接进行此项操作，老是碰到org.apache.spark.serializer.JavaDeserializationStream错误

#spark

基于深度学习的实现影像地图道路提取

从遥感影像中提取出道路是遥感领域智能分析的一种常见任务。今天刚好看到CVPR　2018的挑战赛任务中（http://deepglobe.org/leaderboard.html）有这样的一个已经完成的竞赛，对道路提取第一名的方案（北邮团队的D-LinkNet: LinkNet with Pretrained Encoder and Dilated Convolution for HighResol

G2P(单词到音素)的深度学习训练测试

音素提取是语音识别中的一块重要内容。G2P（Grapheme-to-Phoneme），英文意思是字素到音素，使用循环神经网络(recurrent neural network,RNN) 和LSTM( long short-termmemory units)，来实现从英文单词到音素的转化。LSTM序列到序列模型(LSTM sequence-to-sequencemodel)已经被成功

#语音识别 #深度学习

DeepFool（迷惑深度学习分类模型）测试

AI+网络安全是当前网络攻击与防御方向比较热门和前沿的领域。同时网络安全中的漏洞挖掘、入侵检测、异常流量等传统任务也已经出现了大量基于深度学习的实现方法。然而当以深度学习为主流的人工智能应用越来越广泛之后，陆续又出现了对于人工智能应用的攻击，主要分为两种：一是白盒测试，即深度学习的模型架构和参数都已经的情况下，这种场景的攻击一般可以进行参数的修改来达到攻击的效果；二是黑盒测试，即上述情况未知的情况

共 39 条

请选择