
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
1、Spark 中文文档目录汇总:(主要是RDD的一些操作)https://zhuanlan.zhihu.com/p/327583332、Spark Streaming:大规模流式数据处理的新贵https://www.csdn.net/article/2014-01-28/2818282-Spark-Streaming-big-data3、Spark Streami...
1、单机环境安装(1)Jdk的安装,这个是后续环境安装的基础(2)Hadoop的安装,这个是使用hbase的前提(3)安装hbase,这个得找教程自己采坑了(4)安装spark2、Python中第三方包的安装(1)thrift,这个是使用hbase的前提(2)happybase,Python可以通过这个库访问hbase(3)pyspark,Python通过这个连接s...
1、在环境里安装pyecharts这个库,在安装好这个库之后就能画echarts的图了,画完可以保存为html文件比较简单用法示例可以参考:python调用echart交互式可视化比较全的中文用法文档可以参考:pyecharts 文档2、保存为png格式的图片则需要安装以下的环境这里参考的是:Python - pyecharts:直接将图片保存为...
对于一个算法的产生,一般肯定是为了解决其之前的算法没有解决的问题。所以如果要说一个算法的由来或者优点,肯定是跟它同类型(解决相同的任务),且比他早的里程碑的算法对比。LSTM是NLP中比较经典的算法,在百科里的介绍是:长短期记忆网络(LSTM,Long Short-Term Memory)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN
目录一、二分类评价指标1、真实标签-预测标签的混淆矩阵2、accuracy3、precision、recall和F1-score4、指标的选择问题二、多分类评价指标1、macro-F12、weight-F13、micro-F14、指标的选择问题注:这篇文章只是对常用的分类问题中的评价指标的总结。一、二分类评价指标1、真实标签-预测标签的混淆矩阵样本被预测为正样本被预测为负实际样本为正TP(true
本文是在实际处理文本时遇到的两个应用。1、剔除括号及括号内的数据用正则匹配的方法,替换掉目标字符串为空,具体示例如下:s = "我是一个人(中国人)aaa[真的]bbbb{确定}"a = re.sub(r"\((.*?)\)|\{(.*?)\}|\[(.*?)\]", "", s)print(a)output:我是一个人aaabbbb加上剔除文本中的各种标点符号,例子如下:s = "我是一个人(中
Python打印和保存log的主要作用是,在我们没空盯着程序运行时,可以在程序或者结果出错的时候根据log文件中的日志信息找出问题所在。在Python中一般用logging这个自带库来做log的屏幕打印和文件保存,关于logging中信息等级的设置可以参考这篇文章:https://www.cnblogs.com/nancyzhu/p/8551506.html从自己所用和上面链接可以总结出,logg
1、读Hive表数据pyspark读取hive数据非常简单,因为它有专门的接口来读取,完全不需要像hbase那样,需要做很多配置,pyspark提供的操作hive的接口,使得程序可以直接使用SQL语句从hive里面查询需要的数据,代码如下:from pyspark.sql import HiveContext,SparkSession_SPARK_HOST = "sp...
目录1. 模型输入2. 网络结构2.1 Self-Attention Layer2.2 Layer Normalization3. 模型预训练3.1 训练任务3.2 模型训练设置4. 总结4.1 模型特点4.2 可优化空间5. Reference1. 模型输入在BERT中,输入的向量是由三种不同的embedding求和而成,分别是:wordpiece embedding:单词本身的向量表示。Wor
elasticsearch 库pip installelasticsearchfrom elasticsearch import ElasticsearchES_CONF = {"host": "192.168.11.22","port": 9200,"user": "elastic","passwd": "1234"}index = "test_index"def process_func():







