logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

文本特征提取方法研究

<br />文本特征提取方法研究一、课题背景概述<br />文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解

#算法#数据挖掘
优化solr全量建索引,减少索引时间

优化solr全量建索引主要优化从数据库取数据这一块。先简单为读取某个单表数据:该表数据很多娄,数据库为MySQL。旧的建索引设计:之前的设计是分段读取数据,可以按自增主键分段或者按记录更新的时间截分段取。但由于数据模型是可增删改查,这种更新会导致按自增id的数据在有些地方比较稀疏,而按记录的更新时间截,也有可能在某个时间段里更新大量数据,所以也会有不同时间段数据过稀或者

#solr#数据库#sql
Java获取自身PID方法搜集

http://blog.csdn.net/jsutluo/article/details/6860855Java获取自身PID方法搜集: 其中如下方法在与SUN JDK兼容的虚拟机上是可以正常获取的。第一种,来自:http://rednaxelafx.iteye.com/blog/716918Java标准库里常见的公有API确实是没有获取当前进程的ID的

#java
RedHat(CentOS)和Ubuntu安装软件命令对比(区别)

<br />此表内容来自《Ubuntu Server最佳方案》,CentOS和Ubuntu(Debian)是VPS最常见的系统,这份表很实用,分享下。<br /><br /><br /><br />转载请注明:来自pugWoo's Life<br />本文地址:http://www.pugwoo.com/2010/01/2/redhat-ubuntu-install-diff.html

#centos#ubuntu#debian
文本特征提取方法研究

<br />文本特征提取方法研究一、课题背景概述<br />文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解

#算法#数据挖掘
到底了