logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

数据挖掘-基于模板的属性抽取

      信息抽取是一个互联网自然语言处理的一个首要环节,信息抽取的准确度会直接影响到后续的处理。信息抽取的目标是去除噪音,获取网页有价值的信息如网页的标题、时间、正文、链接等信息。      根据工作中的实际应用,下面简单介绍一下基于网页模板的属性抽取方法:       一、模板特征       网页属于半结构化的文本,同一网站中的网页结构往往是固定的,网页中的内容可能随时改变...

#数据挖掘#xml
数据挖掘-机器学习:Kmean聚类思想

一、概述         数据聚类是对于静态数据分析的一门技术,在许多领域内都被广泛地应用,包括机器学习、数据挖掘、模式识别、图像分析、信息检索以及生物信息等。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集,这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。         K-means是一种基于距离的迭代式算法[1]。它将n...

#数据挖掘
到底了