logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

dblp解析--一种比较蠢的方法

dblp是一个开放数据集,许多进行数据挖掘的项目均使用它来验证自己的算法.但是,900多M的XML实在很难解析,用Dom解析的话根本不可能,我试过用SAX,不知道是不是我第一次使用SAX的缘故,我将java虚拟机的内存设为1.5g仍然有溢出.实在没办法,就自己动手逐行读dblp的xml文件,再用正则表达式进行匹配,来获得我想要的内容,虽然方法蠢了些,不过还是比较高效的,大概遍历一遍文件只要两分钟.

#正则表达式#数据挖掘
svn(subversion)扫盲

这里介绍一些svn最最简单的使用(复杂的我也不会)Windows最经常使用的版本控制应该要数TortoiseSVN(我猜),这里就介绍一下它的简单用法.明确几个词,Checkout:第一次从服务器下载源码等文件时用(我自己的理解)Update:从服务器下载最新版本(其

#svn#服务器#windows
到底了