logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

hbase高性能读取数据

有时需要从hbase中一次读取大量的数据,同时对实时性有较高的要求。可以从两方面进行考虑:1、hbase提供的get方法提供了批量获取数据方法,通过组装一个list gets即可实现;2、java多线程的Future方法实现了如何从多线程中获取返回数据。以上两种方法结合后,获取数据将会更加的高效。阅读到一篇文章,对这两个方法的结合使用给出了实例,并有详细的性能分析。特意转载过来,供以后的参考学习:

#hbase
初识Spark2.0之Spark SQL

内存计算平台spark在今年6月份的时候正式发布了spark2.0,相比上一版本的spark1.6版本,在内存优化,数据组织,流计算等方面都做出了较大的改变,同时更加注重基于DataFrame数据组织的MLlib,更加注重机器学习整个过程的管道化。当然,作为使用者,特别是需要运用到线上的系统,大部分厂家还是会继续选择已经稳定的spark1.6版本,并且在spark2.0逐渐成熟之后才会开始考虑系统

#spark#java#sql
使用spark ml pipeline进行机器学习

一、关于spark ml pipeline与机器学习一个典型的机器学习构建包含若干个过程1、源数据ETL2、数据预处理3、特征选取4、模型训练与验证以上四个步骤可以抽象为一个包括多个步骤的流水线式工作,从数据收集开始至输出我们需要的最终结果。因此,对以上多个步骤、进行抽象建模,简化为流水线式工作流程则存在着可行性,对利用spark进行机器学习的用户来说,流水线式机器学习比单

#机器学习#spark
机器学习中的维数灾难

一.引言这里我们将要tao'l

TensorFlow实验环境搭建

初衷:由于系统、平台的原因,网上有各种版本的tensorflow安装教程,基于linux的、mac的、windows的,各有不同,tensorflow的官网也给出了具体的安装命令。但实际上,即使tensorflow安装成功,还是会遇到需要安装其他辅助工具的情况,同时,换一台机器又要面临整个环境重新安装的问题。由于docker制作一次镜像,可以拷贝重复使用的原因,在这里探讨一下在docker上制作一

#tensorflow#docker
CNN和RNN在NLP任务中的对比实验

这篇博客主要是拜读IBM Research发表的论文“Comparative Study of CNN and RNN for Natural Language Processing”,结合自己的体会做一个阅读笔记。        目前深度学习主要包括CNN(卷积神经网络)和RNN(递归神经网络)两大阵营,基于卷积的CNN对识别目标任务的结构具有一定的优势,而RNN由于其记忆功能对序列识别建模具备

聊聊机器学习中的无监督学习

无监督式机器学习的两大类问题:聚类问题和Autoencoder问题,聚类问题解决的其实是模糊...

#深度学习#聚类
机器学习中的维数灾难

一.引言这里我们将要tao'l

聊聊在线教育的推荐系统

今天不谈推荐系统架构,也不谈具体的推荐算法,仅从一个本人亲历过的推荐产品来讨论个性化推荐怎么做更友好一点的问题。在线教育产品中主要存在着两大类的推荐需求,题目、视频等教育资源的推荐和 辅导老师的推荐,这两大类的推荐都是将平台上的资源与实际需求者进行匹配。下面主要讨论题目、视频等教育资源得推荐为例。实际上,推荐系统是用户与平台资源池进行交互的纽带,其为用户较小信息负载,将最合理的资源推荐给用户,进

#算法
Python实现Mysql数据库连接池

python连接Mysql数据库:python编程中可以使用MySQLdb进行数据库的连接及诸如查询/插入/更新等操作,但是每次连接mysql数据库请求时,都是独立的去请求访问,相当浪费资源,而且访问数量达到一定数量时,对mysql的性能会产生较大的影响。因此,实际使用中,通常会使用数据库的连接池技术,来访问数据库达到资源复用的目的。python的数据库连接池包 DBUtils:

#python#数据库#mysql
    共 11 条
  • 1
  • 2
  • 请选择