logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Python数据分析:主成分分析(PCA)

本文通过10名学生7门科目成绩数据演示了PCA主成分分析的全过程。首先生成模拟数据,其中理科科目(数学、物理、化学)和文科科目(语文、英语、历史、政治)分别具有相关性。然后进行数据标准化处理,消除量纲影响。PCA分析显示前两个主成分累计解释方差达80%以上,第一主成分主要反映理科能力,第二主成分反映文科能力。通过载荷分析和二维可视化,清晰展示了科目间的相关性以及学生在主成分空间的分布情况。结果表明

#python#数据分析#numpy +3
Python数据分析:政府发布的统计数据和人口普查数据可以从以下官方渠道获取

​​第七次人口普查(2020)​​:http://www.stats.gov.cn/sj/pcsj/rkpc/7rp/zk/indexch.htm。​​历史人口普查数据​​:https://www.ons.gov.uk/filter/peoplepopulationandcommunity。​​2021 Census数据​​:https://www.ons.gov.uk/census/2021ce

文章图片
#python#数据分析#开发语言 +3
Python数据分析:使用爬虫从网页、社交媒体平台、论坛等公开资源提取中文和英文人名。

本文介绍了从网页和图像中提取中英文人名的多种方法,包括正则表达式匹配、OCR识别、数据清洗等技术。针对中文人名识别,分析了简单正则的局限性,并提出词典匹配、机器学习模型和混合方法等优化方案。文章包含完整代码示例,并给出优先使用姓氏库结合常用字库的实用建议,以及针对高精度场景推荐BERT-NER模型。最后提供了相关工具推荐和实战优化建议。

文章图片
#python#数据分析#爬虫 +2
Python数据分析:求均值、标准差、方差、中位数和众数。

本文通过Python代码示例展示了数据分析中的正态分布应用。使用numpy生成1万个月薪数据(均值27000元,标准差15000元),演示了如何计算均值、标准差、方差和中位数,并绘制直方图直观呈现"中间多、两边少"的正态分布特征。另以500人年龄数据为例说明众数计算。文章包含代码实践、统计学概念通俗解释(如68-95%法则)、数据可视化方法,以及作者联系方式。最后提供了Mark

文章图片
#python#数据分析#均值算法 +3
Python数据分析:在Python中,reindex和set_index以及reset_index最本质的区别是什么?

本文介绍了Pandas中三种索引操作方法:set_index将列转换为索引,reset_index将索引还原为列并生成新整数索引,reindex按指定标签重新排列数据。同时提供了Markdown编辑器使用指南,包括基本语法、功能快捷键、标题创建、文本样式、链接图片插入、代码高亮、列表表格制作、数学公式、甘特图和UML图表等功能说明。最后附有联系方式及资源链接。全文涵盖了数据处理和文档编辑两大实用技

文章图片
#数据库#算法#大数据 +4
Python 数据分析:DataFrame,说人话,axis=0 到底是行还是列?无论如何都理解不了的话还可以谐音记忆,一辈子不混难忘!

本文主要讲解了Python中DataFrame的axis参数理解问题。通过示例代码演示了axis=0/1在数据操作中的实际含义:axis=0表示"跨行"操作(实际作用于列向量),axis=1表示"跨列"操作(实际作用于行向量)。文章提供了"零列一行"的谐音记忆法(凛冽一航),并通过计算学生成绩单中科目总分和个人总分的具体案例,澄清了常见的

文章图片
#python#数据分析#开发语言 +2
Python 数据分析:计算,分组统计1,df.groupby()。听故事学知识点怎么这么容易?

存储分组规则(如按哪一列分组),但不直接包含分组数据,而是记录了如何拆分原始数据的元信息。像些领导,不直接动手干活,但会分配工作,知道谁适合干什么。这也是好领导。还不是临时小组临时领导,分完活儿就解散(迭代器),是可以长期值班的领导(可迭代对象),除非解除他职务(注销变量)。是“可迭代对象”,但不是迭代器。“可迭代对象”可重复遍历,“迭代器”(如 zip 结果)只能遍历一次。

文章图片
#python#数据分析#pandas +2
Python 数据分析:numpy.inner(),按行点积。

本文主要探讨了NumPy中np.inner()函数的计算规则与使用场景。通过多组代码示例展示了该函数对一维和多维数组的处理方式: 一维数组计算标准向量内积(对应元素相乘求和) 多维数组沿最后一个维度进行按行点积运算,保持其他维度结构 详细解析了输入输出形状的关系(a.shape[:-1] + b.shape[:-1]) 对比了np.inner()与np.dot()的核心区别 提供了计算过程的具体数

文章图片
#python#数据分析#numpy +2
Python数据分析:函数定义时的关键字参数。

这篇文章详细讲解了Python函数参数的不同形式和使用方法:1. 区分了位置参数和关键字参数,并说明在调用时可以混合使用;2. 解释了带默认值的形参(Default Parameters)与关键字参数的区别;3. 重点介绍了不定数量参数args(元组型)和**kwargs(字典型)的用法;4. 通过多个代码示例演示了参数组合使用的规则和常见错误;5. 强调了Python函数参数传递的核心规则:位置

文章图片
#python#数据分析#开发语言 +1
Python 数据分析基础(已有升级版新文章):pandas 抽行、抽列、抽行列。用到df[]、df.loc[]、df.iloc[]等,全网可能最全!

当然写熟了直接写df1 = df[(df[“英语”] > 20) & (df[“数学”] > 20)]即可,但是这样写对新手(比如我)来说,不是很友好,又是方括号又是圆括号,容易迷瞪。抽行必须用df.loc[]或df.iloc[],不能直接写df[]。所以,1.2小节中df1 = df[“A”, “C”]其实等同于df1 = df.loc[:, [“A”, “C”]],也就是全取行,指定单独两列。

文章图片
#python#数据分析#pandas +4
    共 23 条
  • 1
  • 2
  • 3
  • 请选择