logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

HttpClient4.5使用RequestConfig配置连接信息

RequestConfig类在构建网络爬虫时,经常需要配置很多信息,例如RequestTimeout(连接池获取到连接的超时时间)、ConnectTimeout(建立连接的超时)、SocketTimeout(获取数据的超时时间)、代理、是否允许重定向等信息。在HttpClient,实现这些配置需要使用到RequestConfig类的一个内部类Builder。如下为Builder的源码:...

爬虫如何实现每天爬取,定点爬取[以股票数据为例]

分析抓取的数据抓包框架modelmainutilparsedb问题所在解决方法jobjobmain近期,有人将本人博客,复制下来,直接上传到百度文库等平台。本文为原创博客,仅供技术学习使用。未经允许,禁止将其复制下来上传到百度文库等平台。如有转载请注明本文博客的地址(链接)分析抓取的数据本文是以东方财富网的数据为例,这里只做技术学习使用,请勿滥用。如本文要抓取的数据是东方

#爬虫
C++中? : 运算符的使用

比较两个数的大小:#include "stdafx.h"#include<iostream>using namespace std;int main() {int a, b;cout << "请输入两个数字:"; //输入两个数字,并以enter键结束每个数字cin >> a >> b;//在控制台输入两个数//使用? : 运算符判断a<b

#c++
Java如何读指定行

java操作文本时,有时会遇到只读到某一行或指定行。以下程序为读取写入操作:package buffer;import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileInputStrea

#java
ERROR manager.SqlManager: Error reading from database: java.sql.SQLException: Streaming result set

问题在使用sqoop导入数据时,报如下错误:ERROR manager.SqlManager: Error reading from database: java.sql.SQLException: Streaming result set com.mysql.jdbc.RowDataDynamic@2cbefcfd is still active. No statements may be is

#sqoop#hive#mysql
Java实现词频统计(Wordcount)-Map或Hashtable的value排序

我们在文本操作时,经常需要用到词频统计,并对统计后的词频进行排序,然后输出。以下是我写的一个供大家参考:import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;

#java
C++递归求累加

累加实现1+2+3+…+10的值#include "stdafx.h"#include <iostream>using namespace std;int add(int c){int a=0;c&&(a=add(c-1));//递归循环,直到传入c的值为0则结束循环cout<<c+a<<endl;return c+a;}int main(){

#c++
极大似然估计求解多项式分布参数

原因今天晚上,老师在看LDA数学八卦的时候,问我一个问题,如下图所示:这个多项式分布的参数,采用极大估计是怎么求的呢?当时想了想还真不知道,于是在网上找了资料,学习了一下,特此记录。公式推导很多情况下,假定一个变量XX有kk个状态,其中k&gt;2k&gt;2,每个状态假定的可能性为p1,p2,⋯,pkp_{1},p_{2},\cdots ,p_{k},且∑ki=1pi=1\sum

Indian Buffet Process(印度自助餐过程)介绍

简介无监督学习的目的是从观测数据中,发掘潜在的结构(latent structure)。无监督学习算法的一个关键问题是如何确定潜在结构的数目,如聚类中的类的数目,变量的数目等。以聚类为例,如果能够基于数据之间的内在关系,自动学习类的数目,要比通过经验设置一个数目要好的多。相比参数化的贝叶斯模型,非参贝叶斯有其独特的地方,也是近些年来,机器学习比较火的一种方法,如DPMM(Dirichlet pro

#机器学习
Dirichlet Process and Stick-Breaking(DP的Stick-breaking 构造)

目录Dirichlet Process简介Stick-Breaking构造Dirichlet Process简介DP是一种非参数贝叶斯模型, 其优点是参数的个数和性质灵活可变, 可通过模型和数据来计算数目, 近年来它已成为机器学习和自然语言处理研究领域中的一个研究热点。举个例子,我们在使用聚类方法k-means时,需要指定k的值(聚成k个簇);在使用LDA时需要指定主题的数目k,但通过DP过程这种

#机器学习
    共 55 条
  • 1
  • 2
  • 3
  • 6
  • 请选择