登录社区云,与社区用户共同成长
邀请您加入社区
摘要: BERT(2015-2025)从静态词向量演进为动态语义理解的核心技术,彻底改变NLP领域。2018年诞生的BERT通过Transformer和遮蔽语言模型(MLM)实现深度双向理解,衍生出RoBERTa、ALBERT等优化版本。2025年,BERT进化为RAG(检索增强生成)的核心编码器,支持万亿级知识检索,并通过eBPF实现内核级语义安全审计。同时,1.58-bit极速编码使其能部署在
摘要: 数据清洗技术经历了从规则脚本(2015-2018)到AI增强(2019-2022)再到LLM语义修复(2025)的智能化跃迁。2025年的核心技术包括:LLM驱动的语义纠偏、eBPF内核级实时质量审计、生成式模型的自愈能力,实现了从“人工找错”到“系统自愈”的质变。关键技术突破体现为:清洗维度扩展至多模态数据、延迟从批处理升级为实时流式处理、安全机制下沉至操作系统内核层。这十年演进使数据清
过去十年的演进轨迹,是将规划算法从一个**“死板的数学计算器”重塑为“赋能全球物理智能化、具备内核级权限感知与实时安全自愈能力的数字决策大脑”**。你在纠结如何写出完美的 Cost Function 来让车左转时不压线。你在利用 eBPF 审计下的生成式规划系统,放心地让 AI 操纵复杂的机械或车辆,并看着它在内核级的守护下,安全、丝滑且极具智慧地与物理世界进行博弈。
摘要: 轨迹预测技术十年(2015–2025)经历了三大阶段: 物理模型期(2015–2018):依赖卡尔曼滤波等数学方法,但无法处理复杂意图; 深度学习期(2019–2023):通过LSTM、GNN等捕捉交互,实现多模态预测; 世界模型期(2025):整合生成式AI与eBPF内核级安全审计,实现实时博弈与超视距协同预测。 2025年的技术突破包括:端到端生成预测、eBPF强制安全熔断、LLM社会
过去十年的演进轨迹,是将目标检测从一个**“静态图像处理工具”重塑为“赋能全球数字化治理、具备内核级安全感知与实时物理重构能力的数字视网膜”**。你在为模型能准确框出一只“猫”而兴奋。你在利用 eBPF 审计下的检测系统,放心地让 AI 接管繁琐的安全生产监控,并看着它在内核级的守护下,精准、安全地“读懂”这个复杂世界的每一个脉络。
空间智能建图十年演进(2015-2025):从基础SLAM发展到生成式神经重建与内核级安全闭环。早期以稀疏点云为主(ORB-SLAM2/LOAM),2019年后引入语义分割和NeRF连续表示,实现高保真重建。2025年突破包括:1)生成式补全地图,通过空间大模型预测残缺场景;2)eBPF内核审计保障空间数据安全,阻断结构注入攻击;3)4D动态建图支持实时物体追踪。技术跨越体现为:地图精度从厘米级到
VLA模型十年演进:从机械控制到具身智能(2015-2025) VLA(视觉-语言-动作)模型是具身智能的核心技术,其发展经历了三个阶段:2015-2021年的模仿学习阶段,机器人只能执行简单任务;2022-2023年的大模型注入阶段,谷歌RT系列实现动作指令编码;2025年进入原生具身时代,模型具备物理常识和实时安全控制能力。关键技术突破包括:动作Token化、eBPF内核级安全审计、世界模型嵌
摘要: 视觉语言模型(VLM)在2015-2025年间经历了三大技术跨越:从早期的特征对齐(如CLIP)到冻结骨干与Adapter爆发(如LLaVA),最终发展为2025年的原生全模态统一认知。2025年的VLM具备4D时空推理能力,通过eBPF内核审计实现安全交互,并依托1.58-bit压缩技术实现端侧部署。其核心突破在于从“静态图像识别”升级为“实时物理感知”,成为兼具高信度与安全性的“数字视
摘要: 2015-2025年,算法工程化(MLOps)经历了从实验室手动调参到工业级自动化流水线的革命性演进。早期(2015-2018)以Docker和K8s解决环境一致性问题;中期(2019-2022)通过MLOps工具链实现AI生产闭环;2025年进入“自适应工程”时代,依托eBPF内核调度、Auto-Engineering和LLMOps,实现秒级部署、动态资源调度及内核级安全监控。十年间,算
摘要:2015-2025年是AI基础设施从通用云计算向AI原生智算范式转变的十年。经历了三个技术阶段:虚拟化云原生期(2015-2018)聚焦容器化和K8s;算力中心期(2019-2022)以GPU为核心,突破网络和存储瓶颈;2025年进入智算原生时代,实现eBPF内核调度、CXL 3.0内存池化等突破。基础设施演变为具备自愈能力、内核级安全审计和极致能效管理的智能系统,支持万亿参数模型的训练。核
本文系统介绍了Word2Vec技术,包括其核心概念、Skip-Gram和CBOW两种模型架构,以及构建自定义模型的完整流程。文章通过具体代码示例展示了从数据预处理到模型训练的实现过程,并提供了词相似度和词类比两种评估方法。同时分析了Word2Vec在语义捕捉方面的优势与多义词处理等局限性,最后列举了其在文本相似度计算、情感分析等NLP领域的实际应用场景,为初学者提供了全面的技术指南。
本文系统梳理了Word2vec的核心原理与实现逻辑。从词向量表示的基本直觉出发,通过人格测试类比阐释了Embedding的本质。重点剖析了Skip-gram架构如何通过上下文预测任务学习词向量,并深入解析负采样技术如何将计算复杂度从百万级降至常数级,解决了传统Softmax的效率瓶颈。文章还总结了窗口大小、负样本数量等关键超参数的影响,完整呈现了Word2vec从理论到工程实践的全貌。通过清晰的逻
本文探讨了推荐系统中从高维稀疏向量转向低维稠密向量(embedding)的必要性。高维稀疏向量(如词频、TF-IDF)虽然直观,但存在计算复杂度高、语义表达力差和维度灾难等问题。相比之下,低维稠密向量通过Word2Vec、BERT等模型学习语义空间表示,能更好地理解语义、提高计算效率并支持冷启动推荐。实验表明,embedding能有效捕捉词语间的语义关系,而不仅是字面匹配。这种转变使推荐系统从简单
*RAG(Retrieval-Augmented Generation,检索增强生成)**是一种结合信息检索技术和 AI 内容生成的混合架构,可以解决大模型的知识时效性限制和幻觉问题。简单来说,RAG 就像给 AI 配了一个 “小抄本”,让 AI 回答问题前先查一查特定的知识库来获取知识,确保回答是基于真实资料而不是凭空想象。从技术角度看,RAG 在大语言模型生成回答之前会先从
现代模型(如Transformer)通常直接使用Embedding层端到端训练,无需预训练Word2Vec。都是将离散词语映射为连续向量的技术,但它们的实现方式、训练目标和应用场景有显著差异。在迁移学习中,静态Word2Vec向量可被微调(fine-tuned)。Word2Vec预训练的词向量可作为Embedding层的。词向量随着模型在具体任务(如文本分类)的反向传播被优化,两者本质是同一思想(
本文介绍了连续词袋模型(CBOW)的工作原理。CBOW通过上下文词预测中心词,包含三个关键层:1)embeddings层将词索引转换为词向量并求平均;2)线性层将向量映射到词汇表大小;3)Softmax层输出概率分布。损失函数采用负对数似然,通过反向传播更新嵌入矩阵和线性层权重。重点分析了前向传播的计算过程和各层梯度推导,阐明了CBOW不设激活函数的原因。该模型通过上下文词的平均向量预测中心词,能
NLP任务中需要处理的文本往往以序列的形式出现,在注意力机制提出之前,专用于处理序列、时许数据的RNN常用来处理NLP任务。举例解释,若Q是“查找2024年奥运会举办地”,K是新闻全文的每个词,V是对应词的语义向量,注意力机制会计算Q与每个K的相关性,权重高的V被重点关注,最终输出“巴黎”的语义表示。以字典为例,假设查询值 Query 为“fruit”,所查询的文本内容为字典形式,字典中的键对应注
Word2Vec模型实践:《人民的名义》文本分析 本文介绍了Word2Vec词嵌入模型的基本原理和应用实践。Word2Vec通过将词语映射到向量空间,使相似词距离更近,包含CBOW(上下文预测当前词)和Skip-gram(当前词预测上下文)两种架构。作者以《人民的名义》小说原文为素材,进行了中文文本处理实践。 实践步骤包括: 使用jieba分词并加载自定义人名词典 去除常见停用词 训练Word2V
Word2Vec是谷歌的Tomas Mikolov 等人在 2013 年提出的一种将自然语言文本中的单词转换为向量表示的技术,被广泛应用于自然语言处理和深度学习领域。Word2Vec实际是一种浅层神经网络模型,拥有两种网络结构。
词嵌入(word embedding)指一种将词汇映射到低维稠密向量空间的方法,经过词嵌入后得到的词向量能够在不同的下游NLP任务之间共享(即进行迁移学习),但是无法很好地表示一些低频词和未知词。word2vec是一种常见的无监督词嵌入方法,它利用自身的文本信息来构建伪标签,并使用全连接神经网络进行训练,其中隐藏层的权重参数矩阵将作为最终的词向量矩阵,这些低维稠密的向量能够有效地捕捉词与词之间的语
LlamaIndex 是一个开源框架,用于快速构建检索增强生成(RAG)应用。它可以帮助开发者将检索组件(如向量数据库)与语言生成模型(如 LLM)结合,高效地处理和检索文档数据,从而生成更准确、更有依据的内容在生成式 AI 的快速发展中,大模型的幻觉问题一直是制约其广泛应用的关键挑战之一。幻觉现象不仅降低了模型输出的可信度,还可能在实际应用中引发严重后果。为了解决这一问题,检索增强生成(RAG)
NLP基础(十一)_Word2Vec的两个训练框架
透视变换透视变换是一种图像处理技术,用于将二维平面上的图像或物体映射到三维空间中。它通过改变图像的视角和投影来创建一个具有透视效果的图像。透视变换通常用于计算机图像形态学和计算机视觉领域,用于实现图像的透视效果立体视觉图像校正等应用。它可以模拟人眼在观察远景时的透视效果,使得远处的物体看起来比近处的物体小,同时使得平行线在远处会相交的视觉效果。透视变换的实现通常需要通过计算图像中各点在三维空间中的
在自然语言处理(NLP)领域,如何将词语转换为计算机可理解的数值表示一直是核心挑战之一。从早期的one-hot编码到如今的预训练语言模型嵌入,词表示技术经历了革命性的演变。其中,Word2Vec作为2013年由Google提出的开创性模型,为现代词嵌入技术奠定了基础。尽管在2025年,我们已经拥有了更多先进的词嵌入方法,但Word2Vec依然是理解词向量本质和深度学习文本表示的重要基石。
import cv2# 调整图像高宽,保持图像宽高比不变def resize(image,width=None,height=None ,inter=cv2.INTER_AREA): # 输入参数为图像、可选宽度、可选高度、插值方式默认为cv2.INTER_AREA,即面积插值dim = None # 存储计算后的目标尺寸w、h(h,w) = image.shape[:2] # 返回输入图像高宽。
混合类型” 是近年的创新方向,如 BGE-M3 能生成包含稠密向量、稀疏向量,以及多向量表示 —— 即使文本中未出现 “机器学习”,模型也能通过语义推理在向量中赋予该术语一定权重,既保留了关键词匹配的精确性,又增强了语义理解能力。稀疏向量:通过线性变换与 ReLU 激活,生成包含 “相关术语权重” 的稀疏表示,即使文本中未出现某术语,模型也能通过语义推理赋予其权重(如 “iPhone 新品” 会关
本文介绍基于 Python 的情感分析形容词词云可视化方法。利用 jieba.posseg 提取文本中词性为 "a" 的形容词,从训练集train.tsv中按正负标签(label=1/0)筛选句子,通过map与chain函数批量处理并合并形容词列表。借助 WordCloud 库设置中文字体、最大词数等参数,生成正负样本词云图,直观展示不同情感倾向的高频形容词分布,为文本情感分析提供可视化支持。
Embedding 词和句向量模型word2vec/glove/fasttext/elmo/doc2vec/infersent学习总结
基于驭风25-1-自然语言训练营第一章NLP模型基础完成以下内容。
_,独一份_),以下是论文的主要内容概要:1、介绍了语言建模的历史背景,从统计语言模型到神经网络模型,再到预训练语言模型和LLMs的发展。流行语言模型类型一些流行语言模型的高级概述2、LLMs的兴起:讨论了通过在大规模文本数据上训练数十亿参数的LLMs,展现出强大的语言理解和生成能力。大模型的强大能力矩阵。
对于L来说,计算L,对于一对(vt,vc)来说,需要计算b次点积(b是词向量的特征个数:n-dim),复杂度为O(b),对于一对(vt,vc)来说,需要计算k个负样本的概率值,也就是计算k次,总时间复杂度为O(kd)—>O(1)。但是此时的Lbound下界是一个得分,但我们最终要计算的是一个概率,那就需要给这个L得分套上一个sigmoid激活函数,再取对数值,起到一个放大差异的作用,最终我们需要有
GloVe(Global Vectors for Word Representation)和Word2Vec是两种广泛使用的词嵌入方法,它们都旨在将词语转换为高维向量表示,以便于在各种自然语言处理任务中使用。尽管这两种方法的目标相似,但它们的实现方式和理论基础有所不同。是由Google在2013年提出的一种用于生成词向量的技术。它基于分布假说,即上下文相似的词往往具有相似的意义。(Global V
本文是RAG系列第三篇,聚焦构建索引的核心环节——文本分块技术。文章系统介绍了5个级别的分块方法:1)基础字符分块;2)递归字符分块(支持多分隔符);3)特定文档分块(针对Markdown、代码、PDF等格式);4)语义分块(基于嵌入相似性);5)代理分块(LLM驱动的智能分块)。每种方法均附原理说明和代码实现,重点剖析了PDF文档中表格、图片等复杂元素的分块策略。文章指出分块优化能有效解决LLM
本文介绍了四种常见的文本表示方法:One-hot编码、Word Embeddings、Word2Vec和FastText。One-hot编码通过创建对角矩阵表示分类变量,避免数值间的序关系误导模型。Word Embeddings将词汇转化为数字向量,通过神经网络优化词向量表示。Word2Vec(包括CBOW和Skip-gram)利用上下文信息构建词向量,并通过负采样提高效率。Glove引入全局共现
Word2Vec是一种通过浅层神经网络学习词向量的模型,由谷歌团队于2013年提出。它采用单隐藏层结构,将词语映射到低维连续空间,解决了传统one-hot编码的维度灾难和语义孤立问题。核心包含CBOW和Skip-gram两种架构:CBOW通过上下文预测中心词,适合高频词;Skip-gram用中心词预测上下文,擅长捕捉低频词。模型通过最大化预测概率(最小化负对数似然损失)训练,最终输出词向量矩阵。这
NLP初识
NLP基础(十一)_Word2Vec
nn.Embedding 是神经网络中的可训练层(如PyTorch),本质是一个参数化的词向量查找表,用于将离散ID映射为稠密向量。它直接集成在模型中,其存储的向量通常随任务训练而动态更新,生成任务相关的嵌入表示。word2vec 是一种无监督训练词向量的特定算法(如Skip-Gram/CBOW),通过大规模语料学习词语的通用语义关系,输出固定的预训练词向量文件(如.bin)。它独立于下游模型,
Prompt提示是什么呢?Prompt提示是模型接收以生成响应或完成任务的初始文本输入。我们给AI一组Prompt输入,用于指导模型生成响应以执行任务。这个输入可以是一个问题、一段描述、一组关键词,或任何其他形式的文本,用于引导模型产生特定内容的响应。例如,在chatGPT中,用户通常使用 prompt 来与大语言模型进行交互,请求回答问题、生成文本、完成任务等。模型会根据提供的 prompt 来
本文系统介绍了NLP中的词嵌入技术发展历程。首先讲解了Word2Vec的Skip-Gram和CBOW模型原理及其在中文文本的应用;然后介绍了融合全局统计的GloVe模型,并给出代码实践;针对传统词嵌入的缺陷,分析了FastText子词嵌入和BPE字节对编码的优势;最后重点阐述了上下文敏感的预训练模型BERT,包括其双向编码特性、输入表示方法以及中文分词器的具体使用方法。通过从静态词嵌入到动态上下文
word2vec
——word2vec
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net