logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

python爬虫保姆级教程:从小白到大神的进阶之路

作为一名混迹互联网多年的老鸟,今天我要给各位想学爬虫的萌新们带来一份超详细的Python爬虫成长指南。看完这篇,保证你能从"Hello World"水平直接晋级到能写分布式爬虫的大佬级别!

#python#爬虫#开发语言
深入剖析 Apache Flume:从日志收集到数据流转的全链路指南

Apache Flume 是一个分布式、高可靠、高可用的用来收集、聚合、转移不同来源的大量日志数据到中央数据仓库的工具。在大数据领域,日志数据就像城市地下的自来水,源源不断地产生却需要有序管理。Apache Flume 作为 Apache 顶级项目,正是这样一套专业的 "数据管道系统",它能将分散在各处的日志数据高效收集、聚合并传输到中央数据仓库。

文章图片
#apache#flume#大数据 +2
数据搬家界的 “六边形战士“✨:教你玩转 DataX

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。可以理解为国内版的Sqoop。但是比Sqoop要快,Sqoop底层是MR(Map任务),基于磁盘的,DataX基于内存的,所以速度比较快。

文章图片
#大数据#数据库#hive +1
【Python 数据分析入门】NumPy 库超详细指南:安装、基础用法与经典案例

NumPy(Numerical Python)是 Python 科学计算的核心库,是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。主要用于处理多维数组对象和一系列数学函数。它就像是数据分析的 "地基",后续要学的 Pandas、Matplotlib 等神器都是基于它搭建的哦

#python#数据分析#numpy
【Python 数据分析入门】NumPy 库超详细指南:安装、基础用法与经典案例

NumPy(Numerical Python)是 Python 科学计算的核心库,是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。主要用于处理多维数组对象和一系列数学函数。它就像是数据分析的 "地基",后续要学的 Pandas、Matplotlib 等神器都是基于它搭建的哦

#python#数据分析#numpy
【影刀 RPA 爬虫修炼手册】当 IT 大佬用机器人抓数据时,连鼠标都在摸鱼

影刀RPA是一个自动化流程工具,也就是“机器人”,没有独立思考的能力,只会不断地做着重复的事情,本次使用影刀RPA,实现对豆瓣电影TOP250数据的爬取,实战示例保存在excel数据表中。小伙伴们可以在这个案例的基础基础上,设计更多的商品数据采集机器人。为我们的运营决策提供有力依据!

文章图片
#rpa#爬虫#自动化
hive插入数据报错IOException(Unable toclosefile becausethe last blockdoes nothave enough number of replicas

Job Submission failed with exception 'java.io.IOException(Unable to close file because the last block BP-1696380843-192.168.139.128-1747021700060:blk_1073742200_1376 does not have enough number of rep

#hadoop#hdfs#hive
手把手教你用Ollama“白嫖”本地Deepseek!零基础也能玩转大模型!

Deepseek是深度求索公司开源的强大语言模型,能力接近GPT-3.5,关键是完全免费!写代码、写文案、陪你聊天,样样精通!

文章图片
到底了