冰糖少女个人主页

@TiffanyRabbit

冰糖少女

2023-01-17 16:21:25 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【python网络爬虫与NLP系列】一、利用scrapy+redis实现新闻网站增量爬取

写在前头：为了督促自己完成2018上半年的个人小任务，决定在平台上记录和分享完成的过程和心得。时间有限，但尽量详细具体吧。简述一下整个系列的任务：（1）精选几个自己感兴趣的外文网站；（2）利用scrapy+redis框架实现几个网站的定时增量爬取；（3）定时基于自定义规则的新闻筛选；（4）文本预处理，并利用机器翻译模型对新闻进行翻译（5）定时对筛选后的新闻进行拼装整合（自然语言），加...

#爬虫 #scrapy #redis

NLP中的语言模型及文本特征提取算法

本文以基本语言模型为逻辑主线，漫谈NLP中两个核心问题，即文本表示（Text Representation）与文本特征提取（Feature Engineering）。通过本文你会发现，NLP的一部分经典算法以及目前的发展都能够通过文本表示串联在一起，有个基本的结构脉络。当然，NLP大牛们正在不断地探索NLP更多的维度，本文只是提供了一种切入的角度，也仅代表个人观点，如有任何错误还希望大牛们指教。

#语言模型 #nlp

【sklearn】利用scikit-learn训练经典分类模型（算法原理与实现）

本文意图将机器学习中常用的分类器进行总结，从原理到sklearn实现进行统一梳理，宝宝们把本文作为入门读物也好，复习提纲也好，各取所需就好。

#sklearn #python #机器学习

【sklearn】利用sklearn训练LDA主题模型及调参详解

sklearn不仅提供了机器学习基本的预处理、特征提取选择、分类聚类等模型接口，还提供了很多常用语言模型的接口，LDA主题模型就是其中之一。本文除了介绍LDA模型的基本参数、调用训练以外，还将提供两种LDA调参的可行策略，供大家参考讨论。考虑到篇幅，本文将略去LDA原理证明部分。

#自然语言处理 #python #机器学习

NLP中的语言模型及文本特征提取算法

#语言模型 #nlp

到底了