logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

01Python编程基础——《Python大数据实践(主编:吕欣 杨文川)》读书笔记

基础层:吃透环境配置、变量类型、基本语法,这是 “不踩坑” 的前提;工具层:熟练用函数、类、模块,让代码从 “能跑” 变成 “好维护”;效率层:理解并发原理、异常处理,应对大数据量和复杂场景;实战层:结合具体问题(比如用pandas做数据分析),把基础和应用串起来。Python 大数据的核心不是记住多少语法,而是理解 “数据怎么进、怎么处理、怎么出” 的逻辑。踩过的坑、优化过的代码,最终都会变成处

#python#大数据#人工智能
03Python数据管理——《Python大数据实践(主编:吕欣 杨文川)》读书笔记

阿里云 PolarDB 支持 Serverless 模式,资源按需弹性扩展,相比传统固定规格实例可节省 70% 成本。这种「算力即服务」的模式正在重构数据库运维范式:开发者无需关心服务器配置,专注于业务逻辑实现。数据管理本质是用技术语言翻译业务需求的过程。当你能根据「用户注册量突增时的验证码发送延迟」推断出 Redis 缓存穿透问题,能通过「支付成功率下降」定位到 MySQL 主从同步延迟,才算真

#python#大数据#开发语言
04网络爬虫设计——《Python大数据实践(主编:吕欣 杨文川)》读书笔记

爬得多了才明白,爬虫的核心不是 “怎么爬”,而是 “该爬什么”。有些网站的robots.txt明确禁止抓取,硬闯不仅不道德,还可能违法;用户隐私、付费内容更是碰不得。

#爬虫#python#开发语言
05大数据挖掘与应用——《Python大数据实践(主编:吕欣 杨文川)》读书笔记

如何从海量数据中提取价值?:基本思想是先构建高维空间的局部结构,然后通过梯度下降算法最优化目标函数,以保持低维空间中数据点的局部关系和全局结构,相比t-SNE更适用于高维数据的降维,尤其是当数据具有非线性结构和复杂的局部关系时。:在航班延误数据中,将 13 维特征降维到 3 维,保留 82.1% 信息量,模型训练速度提升 4 倍。某电商平台日志数据量达 10GB,使用 FP-growth 算法在

#数据挖掘#python#大数据
06深度学习应用——《Python大数据实践(主编:吕欣 杨文川)》读书笔记

直到深度学习出现,它通过神经网络的层级结构,自动从原始数据中提取特征,彻底改变了游戏规则。LSTM 在语音识别、机器翻译等序列任务中表现优异,但计算复杂度较高,GRU 通过简化门控机制在速度和性能间取得平衡。损失函数的选择直接影响模型训练的方向,例如 Focal Loss 通过调整易分样本权重,有效解决类别不平衡问题。通过归一化邻接矩阵,GCN 能有效处理节点特征和图结构信息,在社交网络分析、蛋白

#数据挖掘#python#大数据
02Python大数据平台实践——《Python大数据实践(主编:吕欣 杨文川)》读书笔记

搭集群的过程虽然繁琐,但每一步都是在理解 “分布式系统如何协同工作”。真正值钱的,是用它处理实际问题 —— 比如把公司的用户行为日志扔进去做用户分群,或者用实时数据计算商品销量 TOP10。工具玩得再好,最终还是要落地到业务里,这也是大数据的价值所在。

#大数据#python#开发语言
10集成学习——《数据挖掘(主编:吕欣 王梦宁)》读书笔记

在集成学习中,个体学习器的准确率和彼此之间的差异性都至关重要。

#集成学习#数据挖掘#机器学习
05降维——《数据挖掘(主编:吕欣 王梦宁)》读书笔记

一种将高维矩阵表示为三个低维矩阵乘积的矩阵分解方法A(N×p)=U(N×N)Σ(N×p)V(p×p)T\boldsymbol{A}_{(N\times p)}=\boldsymbol{U}_{(N \times N)}\boldsymbol{\Sigma}_{(N\times p)}\boldsymbol{V}_{(p \times p)}^TA(N×p)​=U(N×N)​Σ(N×p)​V(p×p

#数据挖掘#人工智能
    共 18 条
  • 1
  • 2
  • 请选择