logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

机器学习系列之kdtree

目的:最近有个项目,一条公交线路上,有n个站点。现在对每个站点附近的基站,进行聚合。首先,通过爬虫并利用高德API,获取了相应的站点的经纬度信息。然后利用基站维度表(包涵经纬度),计算距离公交站点的所有基站。步骤一:爬取公交站爬虫的内容相对简单,本文不在赘述。相关内容,可以自行学习,也可以在评论里探讨。import requestsimport numpy as npimport...

#爬虫
机器学习系列之交叉验证、网格搜索

第一部分:交叉验证机器学习建立和验证模型,常用的方法之一就是交叉验证。在机器学习过程中,往往数据集是有限的,而且可能具有一定的局限性。如何最大化的利用数据集去训练、验证、测试模型,常用的方法就是交叉验证。交叉验证,就是重复的使用数据,对样本数据进行划分为多组不同的训练集和测试集(训练集训练模型,测试集评估模型)。交叉验证一般使用在数据不是很充足情况。一般问题,如果数据样本量小于一万条,就会...

IDEA中scala实现word_count,sbt打jar包,并发送linux中spark运行(sbt打包详细)

文章目录0-背景1-spark安装2-IDEA开发3-参考0-背景最近因为业务需求,开始鼓捣下kafka和spark。因为也是第一次做这方面的内容,而且没玩过java和scala。所以这个word count的例子,鼓捣了近两天才出结果。整个流程如下:首先搭建虚拟机,安装ubuntu。然后在linux中安装spark。最后再本地的IDEA中开发scala,并打包jar包,发送到spark系统...

#scala#spark
小波变换学习—pywavelets

最近正在学习音频方面的项目,涉及到了小波变换的内容。pywavelets是其中一个比较常见的小波模块。复现了下其他博客如下:小波变换-python pywaveletsnp.piecewise是根据条件筛选,然后执行例如lambda/函数等操作。参考链接np.piecewise#!/usr/bin/env python# encoding: utf-8import numpy as np...

到底了