logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

HttpClient4.5使用RequestConfig配置连接信息

RequestConfig类在构建网络爬虫时,经常需要配置很多信息,例如RequestTimeout(连接池获取到连接的超时时间)、ConnectTimeout(建立连接的超时)、SocketTimeout(获取数据的超时时间)、代理、是否允许重定向等信息。在HttpClient,实现这些配置需要使用到RequestConfig类的一个内部类Builder。如下为Builder的源码:...

爬虫如何实现每天爬取,定点爬取[以股票数据为例]

分析抓取的数据抓包框架modelmainutilparsedb问题所在解决方法jobjobmain近期,有人将本人博客,复制下来,直接上传到百度文库等平台。本文为原创博客,仅供技术学习使用。未经允许,禁止将其复制下来上传到百度文库等平台。如有转载请注明本文博客的地址(链接)分析抓取的数据本文是以东方财富网的数据为例,这里只做技术学习使用,请勿滥用。如本文要抓取的数据是东方

#爬虫
极大似然估计求解多项式分布参数

原因今天晚上,老师在看LDA数学八卦的时候,问我一个问题,如下图所示:这个多项式分布的参数,采用极大估计是怎么求的呢?当时想了想还真不知道,于是在网上找了资料,学习了一下,特此记录。公式推导很多情况下,假定一个变量XX有kk个状态,其中k>2k>2,每个状态假定的可能性为p1,p2,⋯,pkp_{1},p_{2},\cdots ,p_{k},且∑ki=1pi=1\sum

Indian Buffet Process(印度自助餐过程)介绍

简介无监督学习的目的是从观测数据中,发掘潜在的结构(latent structure)。无监督学习算法的一个关键问题是如何确定潜在结构的数目,如聚类中的类的数目,变量的数目等。以聚类为例,如果能够基于数据之间的内在关系,自动学习类的数目,要比通过经验设置一个数目要好的多。相比参数化的贝叶斯模型,非参贝叶斯有其独特的地方,也是近些年来,机器学习比较火的一种方法,如DPMM(Dirichlet pro

#机器学习
Dirichlet Process and Stick-Breaking(DP的Stick-breaking 构造)

目录Dirichlet Process简介Stick-Breaking构造Dirichlet Process简介DP是一种非参数贝叶斯模型, 其优点是参数的个数和性质灵活可变, 可通过模型和数据来计算数目, 近年来它已成为机器学习和自然语言处理研究领域中的一个研究热点。举个例子,我们在使用聚类方法k-means时,需要指定k的值(聚成k个簇);在使用LDA时需要指定主题的数目k,但通过DP过程这种

#机器学习
Labeled LDA(有监督)主题模型的理解、推理与编程

本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 。以下内容是个人的论文阅读笔记,内容可能有不到之处,欢迎交流。未经本人允许禁止转载。文章目录算法来源算法简介背景Labeled LDA模型参数学习编程实现算法来源这个算法来源于:Ramage D, Hall D, Nallapati R, et al. Labeled LDA: A supervis...

对数运算基本公式

目录对数的换底公式对数的四则运算指数式与对数式的互化对数的换底公式对数的四则运算指数式与对数式的互化

beta分布及共轭Bernoulli分布-先验、后验、预测分布

beta分布介绍如下为beta分布的形式,其分布有两个参数, α \alpha和β\beta。其分布形式如下其中,Γ(x)\Gamma(x) 是Gamma函数。其中beta分布定义域为【0,1】∫10p(p|α,β)dp=1\int_0^1 {p(p|\alpha,\beta)} \,{\rm d}p=1可以看出∫10pα−1(1−p)β−1dx=B(α,β)\int_0^1

Recbole自定义训练集、验证集和测试集推荐

文章目录Recbole简介Recbole使用自定义训练集、验证集和测试集Recbole简介Recbole(中文名称:伯乐)是一款使用Python开发的开源推荐框架,里面集成了大量的推荐模型,例如BPR、NeuMF、NGCF、LightGCN等等。中文介绍网址为:https://recbole.io/cn/model_list.html在Recbole中提供了按比例划分数据集的方式(例如训练集0.8

Origin绘制带误差棒的曲线(Error Band)

背景最近,在写论文,需要绘制类似下面的图形。该图形为该误差项的曲线图。数据为绘制这种图形,我们需要准备以下数据:10332.602892.5620295.322313.4530253.079172.75...其中,第一列为X列,用于确定数据的X坐标;第二列为Y列,用于确定数据的Y坐标,这一列取的是交叉验证结果的均值;第三列为标准差,取的是交叉验证结果的标准差。...

    共 49 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择