logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

第七章:网络爬虫-爬虫案例解析红牛公司信息

直接学习:https://edu.csdn.net/course/play/6861/326752爬虫案例解析红牛公司信息代码如下1)、初级版:利用正则表达式提取数据import requestsimport reurl =r'http://redbull.com.cn/about/branch'resp = requests.get(url)company = re.findall('<h

《DAMA数据管理知识体系指南》读书笔记-第六章(数据存储与操作)

目录一、前言二、内容结构三、主要内容1.引言2.活动3.工具4.方法5.实施指南6.数据存储和操作治理四、思考与总结一、前言本文是《DAMA数据管理知识体系指南》第六章的读书笔记,主要讲述数据存储与操作相关的内容,整体来说该部分内容属于偏后端的部分,且较多内容是针对DBA同学的。但是文中内容所涉及的数据库类型、数据库特点、数据库操作事项等,不仅对DBA有较大参考意义,对广大的数据从业同学也有较强的

#big data#json#hive
第四章:数据存储-Excel处理-将数据写入Excel文件

直接学习;https://edu.csdn.net/course/play/24756/280723Excel处理-将数据写入Excel文件:import xlwtimport randomworkbook = xlwt.Workbook()sheet = workbook.add_sheet('sheet1')headers = ['姓名','语文','数学','英语']for i...

第四章:数据存储-Excel处理-cell的相关操作

直接学习:https://edu.csdn.net/course/play/24756/280721Excel处理-cell的相关操作import xlrdworkbook = xlrd.open_workbook('成绩表.xlsx')sheet = workbook.sheet_by_index(0)# 1、sheet.cell(row,col):获取指定行和列的cell对象# ...

大数据之Hadoop(hdfs):Hadoop文件压缩

目录1. Hadoop的文件压缩需求2. Hadoop支持的压缩格式3.优缺点4.如何在MapReduce中使用压缩map作业输出结果的压缩1. Hadoop的文件压缩需求文件压缩对于大容量的分布式存储系统而言是必须的,它能带来两个好处:  1)减少了文件所需的存储空间;  2)加快了文件在网络上或磁盘间的传输速度。2. Hadoop支持的压缩格式压缩格式工具算法文件拓展名是否可切分DEFAULT

大数据之Hive:hive的小文件如何处理

目录1.小文件如何产生的?2.小文件解决方案1.小文件如何产生的?(1)动态分区插入数据,分区数太多,产生大量的小文件,导致map数量剧增;(2)reduce数量越多,小文件也越多(reduce的个数和输出文件是对应的);(3)数据源本身就包含大量的小文件。2.小文件解决方案(1)在Map执行前合并小文件,减少Map数:CombineHiveInputFormat具有对小文件进行合并的功能(系统默

大数据之Hive:hive中的cross join函数

目录1.简介2.简单示例3.实战需求一:具体实现需求二:1.简介CROSS JOIN是sql中的一种连接方式,区别于内连接和外连接,对于cross join连接来说,其实使用的就是笛卡尔连接。在SQL中,当CROSS JOIN不使用WHERE子句时,CROSS JOIN产生了一个结果集,该结果集是两个关联表的行的乘积。通常,如果每个表分别具有n和m行,则结果集将具有n*m行;附注:看一下官方的解释

大数据之Hive:with tmp1 as ()

目录1、with tmp1 as ()2、好处3、实例1、with tmp1 as ()语义:将()内查询的结果,取表名tmp1;2、好处本质是子查询,这样写的好处是:写sql和看的sql的时候结构更清晰明了;如果你写是sql 有复用这些子查询结果的情况,只需要先算一次就可以了,因为这个结果会缓存在内存里面,如果采用传统的方式,用几次就算几次。3、实例withtmp_login as(select

大数据之Spark调优:故障排除

虽然说增大 reduce 端缓冲区大小可以减少拉取次数,提升 Shuffle 性能,但是有时map 端的数据量非常大,写出的速度非常快,此时 reduce 端的所有 task 在拉取的时候,有可能全部达到自己缓冲的最大极限值,即 48MB,此时,再加上 reduce 端执行的聚合函数的代码,可能会创建大量的对象,这可难会导致内存溢出,即 OOM。reduce 端拉取数据的缓冲区减小,不容易导致 O

文章图片
#大数据#spark
数据结构与算法之美学习笔记:不定期福利第二期 | 王争:羁绊前行的,不是肆虐的狂风,而是内心的迷茫

本节课程思维导图:专栏更新过半,我发现有些小伙伴已经掉队,虽然有人掉队也挺正常,但是我还是想尽量拉一把。于是,周末的时间,我就在想,究竟是什么原因让有些小伙伴掉队了?是内容本身太难了吗?是我讲得不够清楚吗?还是小伙伴本身基础太差、不够努力、没有掌握学习方法?我觉得都不是,让你掉队的原因,从根儿上讲,是你内心的迷茫。如果我们不那么确信能不能看懂、能不能学会的时候,当面对困难的时候,很容易就会否定自己

文章图片
#数据结构#算法
    共 65 条
  • 1
  • 2
  • 3
  • 7
  • 请选择