ziyin_2013 个人主页

@ziyin_2013

ziyin_2013

2022-11-25 15:41:38 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

用python 将PDF中的表格转化为Excel

这几天想统计一下《中国人文社会科学期刊 AMI 综合评价报告（2018 年）：A 刊评价报告》中的期刊，但是只找到了该报告的PDF版，对于表格的编辑不太方便，于是想到用Python将表格转成Excel格式。看过别人写的博客，发现Python解析PDF有以下四种方式：-pdfminer:擅长文字的解析，把表格解析成普通的文本，没有格式；-pdf2html:把pdf解析成html，但html的标...

Python将Excel转成Json格式

Json是一种轻量级的数据交换格式，简洁和清晰的层次结构使其成为理想的数据交换语言，易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输效率。然而我们很多数据经常是用Excel处理或保存的，为了更好的让研发人员使用，需要将数据转成Json格式。Python中提供了json模块，可用json.dumps()和json.loads()函数分别编码和解码Json对象。

利用Python读取MongoDB的数据

近日在处理数据的时候遇到一个问题，数据存储在MongoDB数据库，而MongoDB模式自由、具有很大的灵活性，可以把不同结构的文档存储在同一个数据库里，即表的字段不是完全固定的，当某个字段有值时就会显示该字段，而当该字段没有值时就不显示该字段。因此，同一个数据库表根据不同的条件查询得到的字段数可能会不一样，字段个数不同。现在想得到每个SourceCode下的数据包含哪些字段，而SourceCode

#python #mongodb

Word文字报告自动与Excel数据同步更新

我们经常会写一些周报、月报、年报等周期性系列报告，如国家统计局每月发布的社会消费品零售总额数据，这些报告通常会有一些固定的文字描述，数据会根据不同时间而进行更新，即数据是动态的、随时变化的。如果每次都手动复制粘贴，无疑给工作人员带来很多重复性工作，效率低且容易出错。把复制的内容在Word中粘贴为链接，即可实现Word报告中文字描述随着Excel数据变化而自动更新，从而简化工作，提高工作效率和质量。

#数据分析

聚类篇——（二）K-means聚类

K-means聚类也称快速聚类，属于覆盖型数值划分聚类算法。它得到的聚类结果，每个样本点都唯一属于一个类，而且聚类变量为数值型，并采用划分原理进行聚类。K-means聚类的基本思想：参数K用以决定结果中簇的数目，算法开始时，要在数据集中随机选择K个数据对象用来当做K个簇的初始中心，而将剩下的各个数据对象根据他们和每个聚类簇心的距离选择簇心最近的簇分配到其中。然后重新计算各个聚类簇中的所有数据对象的

#聚类 #算法 #机器学习

Excel快速将多个单元格合并到一个单元格

在工作或生活中，对于小批量的数据我们习惯用Excel来处理，经常可能会面临这样的问题——如何把多个单元格数据合并到一个单元格。实现这一效果的方式有很多种，比如CONCATENATE函数、连接符&、PHONETIC函数等等，但是每种方法的具体应用场景可能稍有差异。

#数据分析

分布滞后模型

在涉及时间序列数据的回归分析中，一般由于经济变量自身、决策者心理、技术、制度等原因，解释变量需要经过一段时间才能完全作用于因变量，同时由于经济活动的连续性，因变量的当前变化也往往受到自身过去取值水平的影响，即模型中不仅包含解释变量的当前值，还包含它们的滞后值（过去值），这样的模型称为分布滞后模型（distribution-lag model），不能直接使用最小二乘法（OLS）估计，会遇到多重共线性

#算法

用python构建线性回归和决策树模型实现房价预测

国家整体经济水平的不断提高和人们生活质量的提升，刺激着房屋价格也在不断的上涨。房价是由多个因素决定的，比如国家的宏观调控、居民人均可支配收入、房地产开发投资、住宅销售面积等，这些因素都影响着房价的走势。未来房价走势如何成为人们关心的热点，本文用Python构建线性回归和决策数模型实现房价的预测。

#python #数据分析 #机器学习

聚类篇——（五）层次聚类

层次聚类主要有两种类型：合并的层次聚类和分裂的层次聚类。合并的层次聚类是一种自底向上的聚类算法，从最底层（即每个数据点为一类）开始，每一次合并最相似的类，直到全部数据点都合并到一类时或者达到某个终止条件时停止，大部分层次聚类都是采用这种方法处理。分裂的层次聚类是一种自顶向下的聚类方法，从最顶层（即全部数据点为一类）开始，然后把根节点分裂为一些子类，每个子类再递归地继续往下分裂，直到每个类中仅包含一

#聚类 #算法 #机器学习

用python构建机器学习模型分析空气质量

空气质量（air quality）的好坏反映了空气污染程度，它是依据空气中污染物浓度的高低来判断的。空气污染是一个复杂的现象，在特定时间和地点空气污染物浓度受到许多因素影响。来自固定和流动污染源的人为污染物排放大小是影响空气质量的最主要因素之一，其中包括车辆、船舶、飞机的尾气、工业企业生产排放、居民生活和取暖、垃圾焚烧等。城市的发展密度、地形地貌和气象等也是影响空气质量的重要因素。

#python #数据分析 #机器学习

共 13 条

请选择