登录社区云,与社区用户共同成长
邀请您加入社区
本文系统介绍了Word2Vec技术,包括其核心概念、Skip-Gram和CBOW两种模型架构,以及构建自定义模型的完整流程。文章通过具体代码示例展示了从数据预处理到模型训练的实现过程,并提供了词相似度和词类比两种评估方法。同时分析了Word2Vec在语义捕捉方面的优势与多义词处理等局限性,最后列举了其在文本相似度计算、情感分析等NLP领域的实际应用场景,为初学者提供了全面的技术指南。
本文系统梳理了Word2vec的核心原理与实现逻辑。从词向量表示的基本直觉出发,通过人格测试类比阐释了Embedding的本质。重点剖析了Skip-gram架构如何通过上下文预测任务学习词向量,并深入解析负采样技术如何将计算复杂度从百万级降至常数级,解决了传统Softmax的效率瓶颈。文章还总结了窗口大小、负样本数量等关键超参数的影响,完整呈现了Word2vec从理论到工程实践的全貌。通过清晰的逻
本文探讨了推荐系统中从高维稀疏向量转向低维稠密向量(embedding)的必要性。高维稀疏向量(如词频、TF-IDF)虽然直观,但存在计算复杂度高、语义表达力差和维度灾难等问题。相比之下,低维稠密向量通过Word2Vec、BERT等模型学习语义空间表示,能更好地理解语义、提高计算效率并支持冷启动推荐。实验表明,embedding能有效捕捉词语间的语义关系,而不仅是字面匹配。这种转变使推荐系统从简单
*RAG(Retrieval-Augmented Generation,检索增强生成)**是一种结合信息检索技术和 AI 内容生成的混合架构,可以解决大模型的知识时效性限制和幻觉问题。简单来说,RAG 就像给 AI 配了一个 “小抄本”,让 AI 回答问题前先查一查特定的知识库来获取知识,确保回答是基于真实资料而不是凭空想象。从技术角度看,RAG 在大语言模型生成回答之前会先从
现代模型(如Transformer)通常直接使用Embedding层端到端训练,无需预训练Word2Vec。都是将离散词语映射为连续向量的技术,但它们的实现方式、训练目标和应用场景有显著差异。在迁移学习中,静态Word2Vec向量可被微调(fine-tuned)。Word2Vec预训练的词向量可作为Embedding层的。词向量随着模型在具体任务(如文本分类)的反向传播被优化,两者本质是同一思想(
本文介绍了连续词袋模型(CBOW)的工作原理。CBOW通过上下文词预测中心词,包含三个关键层:1)embeddings层将词索引转换为词向量并求平均;2)线性层将向量映射到词汇表大小;3)Softmax层输出概率分布。损失函数采用负对数似然,通过反向传播更新嵌入矩阵和线性层权重。重点分析了前向传播的计算过程和各层梯度推导,阐明了CBOW不设激活函数的原因。该模型通过上下文词的平均向量预测中心词,能
NLP任务中需要处理的文本往往以序列的形式出现,在注意力机制提出之前,专用于处理序列、时许数据的RNN常用来处理NLP任务。举例解释,若Q是“查找2024年奥运会举办地”,K是新闻全文的每个词,V是对应词的语义向量,注意力机制会计算Q与每个K的相关性,权重高的V被重点关注,最终输出“巴黎”的语义表示。以字典为例,假设查询值 Query 为“fruit”,所查询的文本内容为字典形式,字典中的键对应注
Word2Vec模型实践:《人民的名义》文本分析 本文介绍了Word2Vec词嵌入模型的基本原理和应用实践。Word2Vec通过将词语映射到向量空间,使相似词距离更近,包含CBOW(上下文预测当前词)和Skip-gram(当前词预测上下文)两种架构。作者以《人民的名义》小说原文为素材,进行了中文文本处理实践。 实践步骤包括: 使用jieba分词并加载自定义人名词典 去除常见停用词 训练Word2V
Word2Vec是谷歌的Tomas Mikolov 等人在 2013 年提出的一种将自然语言文本中的单词转换为向量表示的技术,被广泛应用于自然语言处理和深度学习领域。Word2Vec实际是一种浅层神经网络模型,拥有两种网络结构。
词嵌入(word embedding)指一种将词汇映射到低维稠密向量空间的方法,经过词嵌入后得到的词向量能够在不同的下游NLP任务之间共享(即进行迁移学习),但是无法很好地表示一些低频词和未知词。word2vec是一种常见的无监督词嵌入方法,它利用自身的文本信息来构建伪标签,并使用全连接神经网络进行训练,其中隐藏层的权重参数矩阵将作为最终的词向量矩阵,这些低维稠密的向量能够有效地捕捉词与词之间的语
LlamaIndex 是一个开源框架,用于快速构建检索增强生成(RAG)应用。它可以帮助开发者将检索组件(如向量数据库)与语言生成模型(如 LLM)结合,高效地处理和检索文档数据,从而生成更准确、更有依据的内容在生成式 AI 的快速发展中,大模型的幻觉问题一直是制约其广泛应用的关键挑战之一。幻觉现象不仅降低了模型输出的可信度,还可能在实际应用中引发严重后果。为了解决这一问题,检索增强生成(RAG)
NLP基础(十一)_Word2Vec的两个训练框架
透视变换透视变换是一种图像处理技术,用于将二维平面上的图像或物体映射到三维空间中。它通过改变图像的视角和投影来创建一个具有透视效果的图像。透视变换通常用于计算机图像形态学和计算机视觉领域,用于实现图像的透视效果立体视觉图像校正等应用。它可以模拟人眼在观察远景时的透视效果,使得远处的物体看起来比近处的物体小,同时使得平行线在远处会相交的视觉效果。透视变换的实现通常需要通过计算图像中各点在三维空间中的
在自然语言处理(NLP)领域,如何将词语转换为计算机可理解的数值表示一直是核心挑战之一。从早期的one-hot编码到如今的预训练语言模型嵌入,词表示技术经历了革命性的演变。其中,Word2Vec作为2013年由Google提出的开创性模型,为现代词嵌入技术奠定了基础。尽管在2025年,我们已经拥有了更多先进的词嵌入方法,但Word2Vec依然是理解词向量本质和深度学习文本表示的重要基石。
import cv2# 调整图像高宽,保持图像宽高比不变def resize(image,width=None,height=None ,inter=cv2.INTER_AREA): # 输入参数为图像、可选宽度、可选高度、插值方式默认为cv2.INTER_AREA,即面积插值dim = None # 存储计算后的目标尺寸w、h(h,w) = image.shape[:2] # 返回输入图像高宽。
混合类型” 是近年的创新方向,如 BGE-M3 能生成包含稠密向量、稀疏向量,以及多向量表示 —— 即使文本中未出现 “机器学习”,模型也能通过语义推理在向量中赋予该术语一定权重,既保留了关键词匹配的精确性,又增强了语义理解能力。稀疏向量:通过线性变换与 ReLU 激活,生成包含 “相关术语权重” 的稀疏表示,即使文本中未出现某术语,模型也能通过语义推理赋予其权重(如 “iPhone 新品” 会关
本文介绍基于 Python 的情感分析形容词词云可视化方法。利用 jieba.posseg 提取文本中词性为 "a" 的形容词,从训练集train.tsv中按正负标签(label=1/0)筛选句子,通过map与chain函数批量处理并合并形容词列表。借助 WordCloud 库设置中文字体、最大词数等参数,生成正负样本词云图,直观展示不同情感倾向的高频形容词分布,为文本情感分析提供可视化支持。
Embedding 词和句向量模型word2vec/glove/fasttext/elmo/doc2vec/infersent学习总结
基于驭风25-1-自然语言训练营第一章NLP模型基础完成以下内容。
_,独一份_),以下是论文的主要内容概要:1、介绍了语言建模的历史背景,从统计语言模型到神经网络模型,再到预训练语言模型和LLMs的发展。流行语言模型类型一些流行语言模型的高级概述2、LLMs的兴起:讨论了通过在大规模文本数据上训练数十亿参数的LLMs,展现出强大的语言理解和生成能力。大模型的强大能力矩阵。
对于L来说,计算L,对于一对(vt,vc)来说,需要计算b次点积(b是词向量的特征个数:n-dim),复杂度为O(b),对于一对(vt,vc)来说,需要计算k个负样本的概率值,也就是计算k次,总时间复杂度为O(kd)—>O(1)。但是此时的Lbound下界是一个得分,但我们最终要计算的是一个概率,那就需要给这个L得分套上一个sigmoid激活函数,再取对数值,起到一个放大差异的作用,最终我们需要有
GloVe(Global Vectors for Word Representation)和Word2Vec是两种广泛使用的词嵌入方法,它们都旨在将词语转换为高维向量表示,以便于在各种自然语言处理任务中使用。尽管这两种方法的目标相似,但它们的实现方式和理论基础有所不同。是由Google在2013年提出的一种用于生成词向量的技术。它基于分布假说,即上下文相似的词往往具有相似的意义。(Global V
本文是RAG系列第三篇,聚焦构建索引的核心环节——文本分块技术。文章系统介绍了5个级别的分块方法:1)基础字符分块;2)递归字符分块(支持多分隔符);3)特定文档分块(针对Markdown、代码、PDF等格式);4)语义分块(基于嵌入相似性);5)代理分块(LLM驱动的智能分块)。每种方法均附原理说明和代码实现,重点剖析了PDF文档中表格、图片等复杂元素的分块策略。文章指出分块优化能有效解决LLM
本文介绍了四种常见的文本表示方法:One-hot编码、Word Embeddings、Word2Vec和FastText。One-hot编码通过创建对角矩阵表示分类变量,避免数值间的序关系误导模型。Word Embeddings将词汇转化为数字向量,通过神经网络优化词向量表示。Word2Vec(包括CBOW和Skip-gram)利用上下文信息构建词向量,并通过负采样提高效率。Glove引入全局共现
Word2Vec是一种通过浅层神经网络学习词向量的模型,由谷歌团队于2013年提出。它采用单隐藏层结构,将词语映射到低维连续空间,解决了传统one-hot编码的维度灾难和语义孤立问题。核心包含CBOW和Skip-gram两种架构:CBOW通过上下文预测中心词,适合高频词;Skip-gram用中心词预测上下文,擅长捕捉低频词。模型通过最大化预测概率(最小化负对数似然损失)训练,最终输出词向量矩阵。这
NLP初识
NLP基础(十一)_Word2Vec
nn.Embedding 是神经网络中的可训练层(如PyTorch),本质是一个参数化的词向量查找表,用于将离散ID映射为稠密向量。它直接集成在模型中,其存储的向量通常随任务训练而动态更新,生成任务相关的嵌入表示。word2vec 是一种无监督训练词向量的特定算法(如Skip-Gram/CBOW),通过大规模语料学习词语的通用语义关系,输出固定的预训练词向量文件(如.bin)。它独立于下游模型,
Prompt提示是什么呢?Prompt提示是模型接收以生成响应或完成任务的初始文本输入。我们给AI一组Prompt输入,用于指导模型生成响应以执行任务。这个输入可以是一个问题、一段描述、一组关键词,或任何其他形式的文本,用于引导模型产生特定内容的响应。例如,在chatGPT中,用户通常使用 prompt 来与大语言模型进行交互,请求回答问题、生成文本、完成任务等。模型会根据提供的 prompt 来
本文系统介绍了NLP中的词嵌入技术发展历程。首先讲解了Word2Vec的Skip-Gram和CBOW模型原理及其在中文文本的应用;然后介绍了融合全局统计的GloVe模型,并给出代码实践;针对传统词嵌入的缺陷,分析了FastText子词嵌入和BPE字节对编码的优势;最后重点阐述了上下文敏感的预训练模型BERT,包括其双向编码特性、输入表示方法以及中文分词器的具体使用方法。通过从静态词嵌入到动态上下文
摘要: LangChain从2022年开源至今(2015-2025),已从简单的链式LLM工具框架跃升为支持万亿级多模态VLA Agent的智能平台。中国厂商(阿里、百度、华为等)快速跟进并领跑,推动框架效率提升1000倍+,渗透率超60%。其演进分为三阶段:2015-2021年手工调用期;2022-2023年模块化Agent元年;2024-2025年多模态VLA自进化时代,融合量子鲁棒技术,实现
ResNet十年演进(2015–2025):从CNN王者到历史经典 2015年,ResNet凭借残差连接解决深度网络退化问题,成为ImageNet分类冠军(Top-1 76-78%),开启CNN黄金时代。2019年后,高效变体(如EfficientNet)推动移动端应用,但ViT/Swin Transformer的崛起(2021年起)逐渐取代ResNet。2025年,ResNet新项目份额不足1%
Diffusion模型十年演进摘要(2015–2025) 2015年Diffusion模型仅作为学术概念萌芽,2025年已发展为支持电影级8K视频、10分钟长时序生成的多模态AI引擎。中国从早期跟随(2017)到全球领跑(Kling/Vidu等),推动技术跨越:2019年DDPM框架成熟,2021年实现高分辨率图像生成,2023年进入文本到视频爆发期(Sora/Kling)。2025年核心突破包括
摘要: 2015-2025年,AutoML从Google初代实验发展为万亿级多模态大模型驱动的智能自进化系统,效率提升超10万倍。中国从跟随者跃升为全球领跑者,华为、阿里、百度等企业推动技术迭代:2015-2018年以手工NAS为主;2019-2022年多保真并行优化实现千倍效率突破;2023-2025年进入VLA自进化时代,量子加速+意图级自适应实现秒级调优。AutoML渗透率从<5%增至
摘要: 2015-2025年,模仿学习从依赖小样本行为克隆(BC)的学术研究,发展为多模态VLA大模型驱动的产业核心技术。中国从跟随DAgger/GAIL到领跑全球,宇树、银河通用等企业推动训练效率提升百万倍,零样本泛化率从70%跃升至99%以上。演进分为三阶段:2015-2018年以BC+DAgger为主;2019-2022年实现多任务万级并行模仿;2023-2025年进入VLA自进化时代,实现
摘要: 2015-2025年间,端到端算法从Seq2Seq语音识别演进为万亿级多模态VLA统一智能系统,实现感知-规划-决策-控制全链路闭环。中国从技术跟随者跃升为全球领跑者,华为、小鹏等企业推动端到端渗透率从<1%提升至>70%,延迟降至50ms以内,鲁棒性覆盖全场景99.99%。发展历经三阶段:2015-2018年语音/翻译萌芽期(RNN+Attention);2019-2022年
摘要: 2015年Word2Vec作为静态词向量代表主导NLP领域,准确率70-80%。2019年起,BERT等预训练模型实现动态句向量(准确率90%+),中国厂商百度ERNIE、华为盘古崛起。2023年后,多模态大模型(如CLIP、通义千问)实现视觉语言联合嵌入,准确率突破95%。至2025年,VLA自进化模型(DeepSeek-Embed等)融合量子计算,实现全域动态意图理解,中国在万亿参数训
方案核心工具适合场景操作步骤入门级Word2Vec + 平均池化技术资源有限,追求快速落地1. 用 Word2Vec 训练小说摘要的词向量(把每个词转换成向量);2. 对单部小说的所有词向量取 “平均值”,得到该小说的「摘要向量」(如 100 维);3. 优点:简单易实现,算力要求低;缺点:忽略词的顺序(如 “男主救女主” 和 “女主救男主” 向量相近)。进阶级(推荐)BERT 等预训练模型(如中
本项目基于RAG技术开发了一个法律文书智能解读系统,旨在解决法律文书专业术语难懂、咨询成本高的问题。系统采用三级缓存架构(Redis、MySQL、RAG引擎)实现高效检索,通过BM25算法和混合检索策略提升匹配精度。核心技术包括: 使用BGE-M3模型进行文本向量化,支持稠密和稀疏向量检索 采用LangChain框架整合文档处理流程 部署BERT微调模型进行意图识别 实现四种检索策略(直接检索、H
人工智能服务 AIService。
word2vec
——word2vec
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net