logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

第三章、文本预处理(下)

本文介绍了文本预处理中的探索性数据分析(EDA)流程,重点讲解了如何通过数据可视化理解文本数据特征。文章首先通过一个真实案例说明EDA的重要性,然后详细展示了文本数据分析的标准流程,包括标签分布、文本长度、词汇统计等关键指标的分析方法。文中提供了完整的Python代码示例,涵盖数据加载、基础统计、可视化图表生成等实用技巧,并强调了数据质量检查的重要性。最后指出,充分的EDA能帮助发现数据问题(如类

文章图片
#python#自然语言处理#人工智能 +2
第二章、文本预处理(上)

本章系统讲解了NLP文本预处理的完整流程与核心技术。首先,通过“从非结构化到结构化”的类比,阐明了文本预处理的必要性及其对模型性能的决定性影响。核心内容包括:中文分词:深入剖析了中文分词的三大难点(歧义切分、未登录词、粒度不一),并详细介绍了jieba分词的三种模式、自定义词典与词性标注;2)文本向量化:从最朴素的One-Hot编码及其三大致命缺陷讲起,重点讲解了Word2Vec(CBOW与Ski

文章图片
#人工智能#自然语言处理#python
第一章、自然语言处理概念

自然语言处理(NLP)是人工智能的重要分支,旨在让计算机理解、解释和生成人类语言。本文从基础概念出发,首先解释了计算机如何通过数字化处理文字,并介绍了NLP的两大核心领域:自然语言理解(NLU)和自然语言生成(NLG)。文章详细梳理了NLP的发展历程,从1950年的图灵测试到2013年的Word2Vec词向量技术,再到2017年Transformer模型的突破。同时,文章还探讨了NLP面临的语言歧

文章图片
#自然语言处理#人工智能#学习
到底了