
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
第五章 词类标注词类(Part-of-Speech, POS),能够提供关于单词及其近邻成分的大量有用信息。词类标注的方法:手写规则(基于规则标注),统计方法(隐式马尔科夫模型标注HMM,最大熵标注,基于转换的标注,基于记忆的标注)。5.1 英语词的分类词类是根据单词的句法功能和形态功能来定义的。分为两大类:封闭类和开放类。前者是单词成员相对固定的词类,又称虚词,如介词,一般很短...
第六章 隐式马尔可夫模型与最大熵模型马尔可夫模型发展出了隐式马尔可夫模型HMM和最大熵模型MaxEnt,与马尔可夫有关的最大熵模型称为最大熵马尔可夫模型MEMM。HMM和MEMM都是序列分类器。给定一个单元(单词、字母、语素、句子等)的序列,可以计算在可能的标号上的概率分布,并选择最好的标号序列。在语音和语言处理中,到处都会遇到序列分类的问题。MaxEnt并不是序列分类器,因为它...
TF-IDF模型调参1. 调TfidfVectorizer的参数 ngram_range, min_df, max_df:上一篇博客调了ngram_range这个参数,得出了ngram_range=(1, 4)时效果最好这个结论,并在线上验证了下。本篇博客继续调其他的参数。考虑到训练的速度,先将ngram_range设置为(1, 1),调min_df:min_dftrai...
Colab连接与数据预处理Colab连接方法见上一篇博客数据预处理:import pandas as pdimport pickleimport numpy as np# 训练数据和测试数据路径train_path = './security_train.csv'test_path = './security_test.csv'# 将csv格式的训练数据处理为txt...
1. 比赛介绍比赛地址:阿里云恶意程序检测新人赛这个比赛和已结束的第三届阿里云安全算法挑战赛赛题类似,是一个开放的长期赛。2. 前期准备因为训练数据量比较大,本地CPU跑不起来,所以决定用Google的Colaboratory来跑,期间也遇到了几个坑。首先是文件上传比较慢,几个G的文件直接上传比较耗时,上传压缩包后解压又出现了问题,最后还是得等着上传完,期间换了好几个VPN节点...
1. 比赛信息比赛地址:阿里云恶意程序检测新人赛比赛介绍:使用自然语言处理的方法对恶意程序的行为(API调用序列)进行分析,实现对恶意程序鉴别及分类。2. 我的主要工作1)数据预处理:格式转换csv->txt->pkl,根据fileid分组数据,排序后生成api序列,用于训练;2)数据分析及可视化:主要是数据分布分析,包括恶意程序类别分布分析、调用api的类别及频率...
腾讯词向量介绍腾讯词向量主页:https://ai.tencent.com/ailab/nlp/zh/embedding.html词向量下载地址:https://ai.tencent.com/ailab/nlp/zh/data/Tencent_AILab_ChineseEmbedding.tar.gz腾讯词向量(Tencent AI Lab Embedding Corpus for...
XGBoost学习:集成学习将多个弱学习器结合起来,优势互补,可以达到强学习器的效果。要想得到最好的集成效果,这些弱学习器应当“好而不同”。根据个体学习器的生成方法,集成学习方法可以分为两大类,序列化方法,并行化方法。序列化方法的代表就是Boosting方法,其中XGBoost和lightGBN都属于此类。Boosting的方法是先从初始训练集训练出一个基学习器。然后再对训练样本...
第四章 N元语法本章开篇的两句话很有意思,代表了当时两个学派的思想和矛盾。一句是"有史以来最伟大的语言学家"乔姆斯基说的:"句子的概率,在任何已知的对于这个术语的解释中,都是一个完全无用的概念"。他提出了形式语言,坚信可以通过语法规则来处理文字,对概率不屑一顾。而另一句是语言处理大师贾里尼克说的:"每当我开除一个语言学家,语言识别率就能提高一个百分比"。此前他曾有和语言学家不愉...
一、概述本实验做的是一个很常见的数据挖掘任务:新闻文本分类。语料库来自于搜狗实验室2008年和2012年的搜狐新闻数据,下载地址:https://www.sogou.com/labs/resource/cs.php实验工作主要包括以下几步:1)语料库的数据预处理;2)文本建模;3)训练分类器;4)对测试集文本分类;5)结果评估。二、实验环境搭建本实验在Google ...