logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据组件Impala常见面试题总结

2.13.1 什么是Impala?Impala是cloudera提供的一款高效率的Sql查询工具,提供实时的查询效果,官方测试性能比Hive快10到100倍,其Sql查询比SparkSql还要更加快速,号称是当前大数据领域最快的查询Sql工具;Impala是基于Hive并使用内存进行计算,兼顾数据仓库,具有实时,批处理,多并发等优点;2.13.2 Impala与Hive的区别(1)相同点① Imp

#大数据#hadoop#hive +1
大数据-Pulsar的常用命令

1 Pulsar的常用命令1.1 client客户端Pulsar 的 Local模式的基本使用:(1)生产数据bin/pulsar-client produce my-topic --messages “hello-pulsar”说明:向my-topic这个topic生产数据,内容为“hello-pulsar”,如果topic不存在,pulsar会自动创建;(2)消费数据bin/pulsar-cl

#big data#java#kafka
大数据MapReduce-数据清洗ETL案例实践

数据清洗ETL代码实现package com.it.lkw.etl;public class LogBean {private String remote_addr;// 记录客户端的ip地址private String remote_user;// 记录客户端用户名称,忽略属性"-"private String time_local;// 记录访问时间与时区...

#大数据#hadoop#java
MYSQL数据库面经

数据库面试题1 Mysql的事务Mysql事务主要用于处理操作量大,复杂度高的数据。比如说,在人员管理系统中,你删除一个人员,你既需要删除人员的基本资料,也要删除和该人员相关的信息,如信箱,文章等等,这样,这些数据库操作语句就构成一个事务;1.1事务的基本要素(ACID)● 原子性(Atomicity):原子性是指事务是一个不可分割的工作单位,事务中的操作要么都发生,要么都不发生。● 一致性(Co

#数据库#mysql#sql +2
使用Python实现的RBF径向基神经网络模型

代码已经在我的github上:添加链接描述

#神经网络#python#机器学习 +2
不平衡数据集的处理

所谓的不平衡数据集指的是数据集各个类别的样本量极不均衡。以二分类问题为例,假设正类的样本数量远大于负类的样本数量,通常情况下通常情况下把多数类样本的比例接近100:1这种情况下的数据称为不平衡数据。不平衡数据的学习即需要在分布不均匀的数据集中学习到有用的信息。不平衡数据集的处理方法主要分为两个方面:1、从数据的角度出发,主要方法为采样,分为欠采样和过采样以及对应的一些改进方法。2、从算法的角度出发

#算法#机器学习#人工智能 +2
到底了