
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
写在前头:为了督促自己完成2018上半年的个人小任务,决定在平台上记录和分享完成的过程和心得。时间有限,但尽量详细具体吧。简述一下整个系列的任务:(1)精选几个自己感兴趣的外文网站;(2)利用scrapy+redis框架实现几个网站的定时增量爬取;(3)定时基于自定义规则的新闻筛选;(4)文本预处理,并利用机器翻译模型对新闻进行翻译(5)定时对筛选后的新闻进行拼装整合(自然语言),加...
本文以基本语言模型为逻辑主线,漫谈NLP中两个核心问题,即文本表示(Text Representation)与文本特征提取(Feature Engineering)。通过本文你会发现,NLP的一部分经典算法以及目前的发展都能够通过文本表示串联在一起,有个基本的结构脉络。当然,NLP大牛们正在不断地探索NLP更多的维度,本文只是提供了一种切入的角度,也仅代表个人观点,如有任何错误还希望大牛们指教。
本文意图将机器学习中常用的分类器进行总结,从原理到sklearn实现进行统一梳理,宝宝们把本文作为入门读物也好,复习提纲也好,各取所需就好。
sklearn不仅提供了机器学习基本的预处理、特征提取选择、分类聚类等模型接口,还提供了很多常用语言模型的接口,LDA主题模型就是其中之一。本文除了介绍LDA模型的基本参数、调用训练以外,还将提供两种LDA调参的可行策略,供大家参考讨论。考虑到篇幅,本文将略去LDA原理证明部分。
上一篇博客简单梳理了NLP的技术架构、NLP语言模型的演化,以及最基本的语言模型Bag-of-Word词袋模型及基于词袋模型的重要模型和算法。本文将继续探讨NLP中重要的语言模型N-Gram语言模型,并探究其变形NPLM、CBOW及衍生物Word2vec。
本文以基本语言模型为逻辑主线,漫谈NLP中两个核心问题,即文本表示(Text Representation)与文本特征提取(Feature Engineering)。通过本文你会发现,NLP的一部分经典算法以及目前的发展都能够通过文本表示串联在一起,有个基本的结构脉络。当然,NLP大牛们正在不断地探索NLP更多的维度,本文只是提供了一种切入的角度,也仅代表个人观点,如有任何错误还希望大牛们指教。
本文以基本语言模型为逻辑主线,漫谈NLP中两个核心问题,即文本表示(Text Representation)与文本特征提取(Feature Engineering)。通过本文你会发现,NLP的一部分经典算法以及目前的发展都能够通过文本表示串联在一起,有个基本的结构脉络。当然,NLP大牛们正在不断地探索NLP更多的维度,本文只是提供了一种切入的角度,也仅代表个人观点,如有任何错误还希望大牛们指教。







