登录社区云,与社区用户共同成长
邀请您加入社区
本文介绍了数据分析的基本流程和工具使用,重点讲解了Pandas库的数据处理功能。主要内容包括:数据分析四大步骤(收集、清洗、分析、可视化);Jupyter Notebook交互式工具的使用;Pandas核心数据结构DataFrame和Series的操作方法;数据读写、查看、筛选、过滤等基础操作;以及缺失值、重复值和异常值的处理方法。文章通过类比数据库概念和提供实用代码示例,帮助初学者快速掌握数据分
掌握 Pandas,你就能:快速读取和整理数据高效分析数据趋势做出漂亮的报表和图表数据分析不再是难题,Python + Pandas,让你3分钟搞定Excel都做不到的事!
面向对象高阶、爬虫、并发线程、Django/Flask、机器学习、深度学习、Numpy 高阶、可视化花哨图表。
本文面向 Python 办公自动化开发者,系统讲解 pandas DataFrame、读取 Excel、数据筛选排序、分组统计、缺失值处理、导出多工作表 Excel 报告,并提供完整销售订单统计分析案例代码和实际应用场景。
总体来看,这次实验是一次比较完整的数据分析实践。通过从数据清洗到可视化的全过程操作,我进一步巩固了课堂所学内容,也为后续更加复杂的数据分析任务打下了一定基础。后续我会继续结合课程实验和实际案例进行训练,不断提升数据分析能力。
本系列笔记是博主学习 Python 数据分析的详细记录,主要记录了在学习过程中遇到的各种实际问题与解决方法。本文是第五章:使用 pandas 进行数据分析,主要介绍了 pandas 最主要的数据结构 DataFrame 和 Series,如何清理和准备数据,以及如何用 pandas 导入和导出数据。
2026年5月7日,A股市场迎来"五一"后首个交易日,芯片板块集体爆发,寒武纪股价首次突破1900元,科创板芯片指数单日暴涨5.92%。这样的行情数据背后,藏着大量值得分析的信息。 今天这篇文章,船长用Python的pandas库,手把手带你从零开始处理真实的股票行情数据。学完这篇,你就能自己动手分析任意一只股票的历史走势。 一、环境准备 本文使用pandas + matplotlib,数据来源为
✍、【Python工具】Pandas数据分析处理库(一)
本系列笔记是博主学习 Python 数据分析的详细记录,主要记录了在学习过程中遇到的各种实际问题与解决方法。本文是第六章:使用 pandas 进行时序分析,主要介绍了 DatetimeIndex 的构造和筛选,以及如何处理时区和常见的时序操作的方法。
这三个库是 Python 数据科学与科学计算的。
本文介绍Python处理Excel常用库(openpyxl、spire)的基础用法,包含安装、读取与修改等基本操作。
本文介绍了使用Pandas进行数据清洗的完整流程,重点处理爬虫数据中的缺失值、重复值和异常值问题。主要内容包括:1)缺失值检测与填充(均值、中位数、众数填充等方法);2)重复值识别与删除;3)数据类型转换(数值、日期、字符串等);4)异常值检测(3σ原则、IQR四分位法、Z-score)与处理(删除、替换边界值或中位数)。文章提供了详细的Python代码示例,帮助开发者掌握数据清洗的核心技术,确保
前言:10万条数据,如何一眼看出规律?爬了10万条商品数据,老板问:- 每个品类平均价格多少?- 哪个城市销量最高?- 每月销售额趋势怎样?
本文介绍了一个基于Python的自动化薪酬绩效分析系统。项目针对传统Excel处理效率低下的问题,采用Python3.x结合MySQL数据库,使用Pandas、NumPy进行数据处理,PyMySQL连接数据库,Matplotlib实现可视化。系统通过设计员工和薪资两张关联表,实现了数据获取、清洗、分析、可视化及Excel报表导出的全流程。该方案有效提升了企业薪酬数据处理的效率和准确性,为管理层决策
从开始的很短,到2秒左右:第1次写入完成 | 写入行数: 10 | 耗时: 0.0490s。第866次写入完成 | 写入行数: 10 | 耗时: 2.5864s。第867次写入完成 | 写入行数: 10 | 耗时: 2.5987s。第10次写入完成 | 写入行数: 10 | 耗时: 0.0580s。第2次写入完成 | 写入行数: 10 | 耗时: 0.0453s。第4次写入完成 | 写入行数: 1
批量处理1000个Excel,我用这20行代码替代了3小时手工操作
游戏账号数据分析系统摘要 本系统是一个基于FastAPI和Bootstrap构建的游戏账号交易数据可视化平台,包含五大核心功能模块: 数据分析:通过ECharts实现多维度图表展示,包括价格分布、游戏类型占比等 账号管理:支持25,000+条账号数据的浏览、筛选和详情查看 个性化推荐:基于用户收藏行为提供智能推荐 账号对比:多账号属性横向对比功能 后台管理:管理员专属的数据管理界面 技术栈采用Py
本文介绍了使用Pandas进行数据合并与重塑的实战技巧,涵盖纵向拼接(concat)、横向合并(merge)、索引合并(join)以及数据重塑(melt/pivot)等核心操作。文章通过具体代码示例展示了如何处理多数据源整合场景,包括列不一致时的拼接策略、四种合并方式(内/左/右/外连接)、多列关联、宽表长表转换等实用技术。最后通过一个电商数据整合案例,演示了如何将商品信息、价格数据和评论统计进行
本文介绍了pandas数据筛选与保存的进阶操作。主要内容包括:1)数据筛选的核心思想是通过条件语句快速提取目标数据,比Excel操作更高效;2)具体实现步骤为:先使用df[df['列名']>值]进行筛选,再通过.to_csv()保存结果;3)提供了完整代码示例,涵盖数据读取、统计分析(计算平均分和最高分)、筛选90分以上学生数据并保存为CSV文件。这些操作能帮助用户快速处理大规模数据,提高数
摘要:《SwiftAssistants:面向中小企业的轻量化数据处理工具集》是26届人工智能专业毕业生包佳威的毕业设计项目。该项目针对电商运营和制造业中常见的数据处理痛点,开发了一套模块化引擎系统,包含Translator(混乱文本解析)、Slicer(大文件处理)、Director(任务调度)等核心组件。采用Python技术栈(Pandas/openpyxl/Tkinter),解决了多格式数据自
适合学习、实战和面试使用 👇。
本文基于模拟招聘数据,使用 Python、pandas、MySQL、SQL 和 matplotlib 完成数据分析师岗位画像分析,跑通数据生成、清洗、入库、查询分析和可视化展示流程,为后续真实岗位数据分析项目积累基础。
本文详细介绍了如何使用Python的pandas和psycopg2库从openGauss数据库高效读取数据并进行可视化分析。通过优化SQL查询、数据清洗技巧和高级可视化方法,帮助数据分析师提升工作效率,实现从数据提取到洞察呈现的全流程自动化。特别适合需要处理大规模数据库数据的专业人士。
本文介绍了高效数据处理的全流程技术方案,涵盖数据接入、诊断、清洗、转换及时序分析五大环节。在数据接入层,重点讲解了CSV读取优化、分块处理及Parquet格式应用;数据诊断层提供自动化质量评估方法;清洗层展示缺失值处理、异常值检测和文本提取技巧;转换层详解分组聚合、长宽表转换和多表关联;时序分析层则针对商业场景提供时间序列处理方法。全文采用Python代码示例,强调向量化操作和内存优化,适用于大规
有的表叫“销售额”,有的叫“金额”,有的叫“实收金额”。日期字段建议用 pandas.to_datetime 转换,金额字段用 to_numeric 转换,并设置 errors='coerce',这样无法识别的数据会变成 NaN,方便后续检查。更进一步,还可以同时生成多个 sheet:一个放明细清洗结果,一个放区域汇总,一个放人员排名,一个放异常数据。很多办公场景里,真正消耗时间的不是复杂算法,而
本文通过韦恩图和Python代码实战,详细解析了SQL中INNER JOIN、LEFT JOIN等连接类型的区别与应用场景。文章不仅提供了直观的图解说明,还附带了pandas模拟代码,帮助读者深入理解JOIN操作在数据处理中的核心价值与实用技巧。
Pandas课程第三讲
Pandas的分组聚合与函数应用
拿到一个陌生的 DataFrame,第一件事就应该是.info()——它用几行输出告诉你数据的骨架结构。print(df)df.info()一眼就能看到:有几个缺失值、每列数据类型、内存占用。# verbose=False 打印简短摘要# show_counts=False 不显示 Non-Null Count参数说明verboseNone打印完整摘要(默认),False打印简短摘要None显示非
在数据科学工程实践中,Python生态中NumPy、pandas、scikit-learn等基础库构成了支撑算法落地的底层技术栈。其核心价值在于将数学原理转化为可复现、可部署、可协作的生产级代码——NumPy提供高效数值计算与内存协议,pandas封装业务语义与结构化数据操作,scikit-learn统一机器学习接口并保障模型可移植性。这些工具共同解决了真实场景中的关键挑战:大规模数据加载与内存优
Pandas 是数据处理的瑞士军刀:适合表格数据、数据分析NumPy 是数值计算的基石:适合矩阵运算、数值计算两者配合使用:Pandas 底层依赖 NumPy,可以互相转换不用深究数学原理:会用函数就行,数学慢慢补掌握 Pandas + NumPy,数据分析基本功就扎实了!下一篇:Matplotlib 数据可视化,让数据说话!
数据清洗是数据分析 pipeline 中承上启下的关键环节,其本质并非单纯的技术操作,而是将模糊的业务规则转化为可执行、可验证、可审计的代码逻辑。理解缺失值的业务语义(如系统性缺失 vs 业务性缺失)、掌握时间字段的多源异构解析(Excel序列号、模糊日期、时区混杂)、识别文本中的隐形脏数据(全角空格、编码异常、大小写歧义),直接决定后续建模与决策的可信度。现代清洗已超越单点脚本,需融合panda
时间序列分析是处理随时间变化的观测数据的核心技术,其原理基于数据的自相关性、趋势性与周期性建模。通过pandas进行高效时序对齐与重采样,结合statsmodels等库实现ARIMA、STL分解等经典方法,可显著提升预测精度与业务洞察力。该技术广泛应用于销量预测、设备监控、金融风控等场景,尤其适合具备明确时间戳、规律性波动特征的单变量或多变量序列。掌握pandas时间序列操作与基础建模流程,是构建
动态排序轮播图(Bar Chart Race)是 B 站数据区热门可视化形式,直观展示指标随年份变迁的排名变化。本项目基于世界银行全球人口数据集,用 Python 完成数据清洗→宽长格式转换→动态可视化全流程,复刻高质量世界各国人口年度动态排名图,时间跨度 1960~2024 年。python运行# JS代码:实现柱子循环随机配色""")# 初始化深色背景时间轴bg_color="#080808"
Bar Chart Race(动态条形竞赛轮播图)是 B 站数据区爆款可视化形式,人口变迁排行更是常年热门选题。市面上大多使用在线 Flourish 工具一键生成,但不利于学习数据清洗 + Python 可视化底层逻辑。本项目基于世界银行 1960-2024 全球人口 CSV 数据集,使用Pandas做全量数据清洗,实现逐年自动轮播排行,最终落地深色 B 站商业级美化成品:支持暂停 / 播放、悬浮
本文介绍了Python数据分析中pandas库的常用数据处理方法,主要包括: 缺失值处理,数据合并,数据分组, 交叉表与透视表
数据清洗是主数据治理的第一公里,本质是将模糊的业务语义转化为精确的机器可执行规则。其核心原理在于平衡数据语义理解、工程性能约束与业务风险控制——既要识别'9999'在医疗中是缺失值编码、在游戏里却是真实充值额,也要在千万级日志中用polars实现5倍聚合加速,同时避免fillna()误填业务状态。技术价值体现在降低ETL返工率、筑牢下游模型质量基线、支撑实时反洗钱与智能推荐等关键场景。本文聚焦Py
pandas
——pandas
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net