logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

数据预处理1:分类特征编码

背景音乐:We Don't Talk Anymore很多时候,在我们拿到的数据集里,特征不都是连续的值,而是由某些离散化取值的数据组成。例如,性别特征可以具有如下取值:["male", "female"],天气特征有如下取值:["rainy", "sunny", "snowy"...]。1. 数字化编码LabelEncoder这样的特征是无法直接被模型识别的,因此需要将这些特...

解决腾讯云 COS 客户端报 Request has expired 的问题

腾讯云对象存储服务 COS 客户端在 docker 内报错了,提示 “AccessDenied” 以及 “Request has expired"。明明各种配置参数都一样,为什么换个地方就运行不了了呢。

文章图片
#腾讯云#云计算
伯克森悖论

今天学到了一个很有趣的统计学名词,叫做“伯克森悖论”(Berkson's paradox),也称为“伯克森偏见”(Berkson's bias)。它指的是,当不同样本被纳入统计的概率不同时,样本的两个不显著相关的特征就能够表现出一定的相关性。仔细想想也没错,因为抽样方法的错误,导致样本不能代表总体,所以可能就会得到错误的结论(即观察到相关性)。这属于理性的思考。但当伯克森悖论发生在生活中时,...

#机器学习#人工智能#深度学习 +1
选址问题、模型与算法

背景音乐:Demons - Imagine Dragons最近在研究选址问题,顺便就做了一个归纳整理。这篇文章是第一部分,关于传统的、基于统计学的选址。之后会有另一篇,是关于机器学习、深度学习在现代的选址问题的应用。以下内容纯理论~~1 选址问题【来自百度】选址问题是运筹学中经典的问题之一。选址问题在生产生活、物流、甚至军事中都有着非常广泛的应用,如工厂、仓库、急救中心...

选址问题、模型与算法

背景音乐:Demons - Imagine Dragons最近在研究选址问题,顺便就做了一个归纳整理。这篇文章是第一部分,关于传统的、基于统计学的选址。之后会有另一篇,是关于机器学习、深度学习在现代的选址问题的应用。以下内容纯理论~~1 选址问题【来自百度】选址问题是运筹学中经典的问题之一。选址问题在生产生活、物流、甚至军事中都有着非常广泛的应用,如工厂、仓库、急救中心...

linux/mac 安装 gym

linux/mac 安装 gympip 安装首先需要保证 python 版本是 3.7 及以上,否则可能会出问题。第一步,升级 pip 到最新版pip install pip -U第二步,按照 Github 官方文档,有三种安装方式。这里我选择安装完整版 gum[all]。pip install gym# 基础版,不包含某些环境依赖pip install 'gym[atari]'# 支持 Atar

pip install 加速(修改为国内源)

在国内,用 pip 安装 python 依赖包的时候,总是会遇到 Timeout 或者下载太慢的问题。这是因为 pip 源在国外,那么解决方法就是把 pip 源改成国内的,就可以实现 pip install 加速。1. 国内有哪些 pip 源?国内有几个名气比较大的源:清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/豆瓣 h...

python爬虫:地理编码

背景音乐:背景平时在做数据分析的时候,我们往往只能拿到地址信息,并不方便直接进行可视化。我们需要将地址转成经纬度坐标,国内的高德、百度等地图服务商们都有提供现成的API接口,方便我们直接调用。高德提供的Web服务高德API以高德为例,查看官方文档里的地理/逆地理编码部分:请求参数请求参数官方文档提供了详细的说明,点赞!可以看到,必要的...

[PyFlink 从入门到精通] 基于 PyFlink 实现在线机器学习

本教程整理自我的 Github 仓库 pyflink_learn 的第 5 个案例。业务场景利用实时数据,在线训练一个机器学习模型,并实现对模型训练过程的实时监控。本案例展示了如何用 PyFlink + Scikit-Learn 进行在线机器学习,以及提供实时的模型预测服务。1、在线学习背景介绍准确地说,在线学习并不是一种模型,而是一种模型的训练方法。 能够根据线上反馈数据,实时快速...

#大数据#python#机器学习 +2
到底了