logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

word2vec和狭义embedding的区别

现代模型(如Transformer)通常直接使用Embedding层端到端训练,无需预训练Word2Vec。都是将离散词语映射为连续向量的技术,但它们的实现方式、训练目标和应用场景有显著差异。在迁移学习中,静态Word2Vec向量可被微调(fine-tuned)。Word2Vec预训练的词向量可作为Embedding层的。词向量随着模型在具体任务(如文本分类)的反向传播被优化,两者本质是同一思想(

#word2vec#人工智能
LLM主流开源大模型分类与特性

Hugging Face开发的多语言模型(支持46种语言+13种编程语言),最大参数量176B。:由清华大学开发的开源中英双语对话模型,基于GLM架构,参数量62亿。:Meta AI开发的英文为主的开源模型,参数量从7B到65B。:深度求索实验室开发的中文优化模型,参数量从67B到671B。:阿里巴巴开发的大规模开源模型,参数量从18亿到720亿。:1.4T token(65B版本),不含中文语料

#人工智能#深度学习#transformer +1
ChatGPT及GPT系列模型总结

GPT(Generative Pre-trained Transformer)系列模型通过逐步增加模型规模、优化训练方法和引入人类反馈,实现了从基础语言模型到对话型AI的跨越。,它通过“人类标注-奖励建模-强化学习”三阶段流程,使模型更贴合人类价值观和交互需求。尽管存在服务稳定性等问题,但其在自然语言生成领域的突破性进展已显著降低AI技术的使用门槛。GPT系列模型通过逐步扩大规模、优化训练方法和引

#人工智能#神经网络#深度学习
自回归语言模型训练机制总结

训练数据: [w₁, w₂, w₃, w₄]│ │ │ │▼ ▼ ▼ ▼输入: [w₁, w₂, w₃] ← 去尾│ │ │▼ ▼ ▼预测: P(w₂|w₁), P(w₃|w₁,w₂), P(w₄|w₁,w₂,w₃)│ │ │▼ ▼ ▼标签: [w₂, w₃, w₄] ← 去头关键点说明标签=语料因为语言模型的任务是预测下一个词,答案就在数据中自动偏移1个token输入去尾,标签去头,框架自动完成

#人工智能
强化学习的状态价值函数(State Value Function)

强化学习中的(State Value Function),用于衡量在某个状态s下,遵循策略π时,模型能够获得的。我们来逐步拆解这个公式的含义,并详细解释每个符号的作用。

#人工智能#神经网络
LLM主要架构详细总结

LLM(Large Language Model,大语言模型)基于。:GPT-3、LLaMA、PaLM、Claude 等。:当前大模型(如GPT-3、LLaMA)主要采用。BERT 完全基于 Transformer 的。GPT 仅使用 Transformer 的。架构,因其训练效率更高,生成能力更强。

#人工智能#语言模型#深度学习
One-Hot编码 + 相似度计算:余弦相似度 vs. 欧氏距离

wi​vi​0...1...0isimAB∣A∣⋅∣B∣A⋅B​dAB∑i1n​Ai​−Bi​2​sim就是余弦cosθsim是的缩写,sklearn中相关方法也叫这个名字,如下所示。

#机器学习#人工智能#深度学习 +1
梯度累积策略详解

显存换时间:在显存有限时,模拟大 batch 训练。稳定性提升:更稳定的梯度估计,加速收敛。灵活性高:适用于 NLP、CV、大模型训练等场景。“梯度累积 = 小步快跑,积少成多,最终一步到位更新模型。

#机器学习#算法#人工智能
Function Call 的原理及简单应用总结

Function Call 是大语言模型(如 ChatGPT、ChatGLM 等)与外部功能或 API 进行交互的能力。它允许模型在生成文本的过程中,根据用户需求动态调用预定义的函数,从而获取实时数据或执行特定任务。这一功能由 OpenAI 在 2023 年 6 月 13 日正式公布,现已被多家主流大模型支持。模型仅生成参数,不直接执行函数,需开发者实现函数逻辑。:将自然语言转换为 SQL 并查询

#人工智能#语言模型#自然语言处理 +2
OOV(Out-of-Vocabulary)问题详解与解决方案

即**“词汇表外词”**,指的是在自然语言处理(NLP)任务中,某个词没有出现在模型的预训练词汇表或训练数据中,导致模型无法直接识别或处理该词。等方法可以有效缓解。选择哪种方案取决于具体任务和数据特点。将单词拆分为更小的单元(子词或字符),减少OOV概率。OOV是NLP中的常见挑战,但通过。将进一步提升OOV处理能力。

#人工智能#nlp#深度学习
    共 19 条
  • 1
  • 2
  • 请选择