logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

文本相似度计算方法全视角解析

方法类别代表方法优点缺点适用场景One-Hot方法One-Hot + 余弦/欧式简单直观,实现容易忽略词序,无法处理OOV词小规模数据集,快速原型开发传统机器学习计算简单,可解释性强忽略词序,语义理解弱短文本,计算资源有限深度学习Word2Vec平均, USE捕捉语义信息需要大量数据训练通用语义相似度NLP专用编辑距离, Tree Kernels考虑结构信息计算复杂,领域特定特定领域如代码相似度L

#人工智能#nlp#深度学习 +1
自回归语言模型训练机制总结

训练数据: [w₁, w₂, w₃, w₄]│ │ │ │▼ ▼ ▼ ▼输入: [w₁, w₂, w₃] ← 去尾│ │ │▼ ▼ ▼预测: P(w₂|w₁), P(w₃|w₁,w₂), P(w₄|w₁,w₂,w₃)│ │ │▼ ▼ ▼标签: [w₂, w₃, w₄] ← 去头关键点说明标签=语料因为语言模型的任务是预测下一个词,答案就在数据中自动偏移1个token输入去尾,标签去头,框架自动完成

#人工智能
强化学习的状态价值函数(State Value Function)

强化学习中的(State Value Function),用于衡量在某个状态s下,遵循策略π时,模型能够获得的。我们来逐步拆解这个公式的含义,并详细解释每个符号的作用。

#人工智能#神经网络
梯度累积策略详解

显存换时间:在显存有限时,模拟大 batch 训练。稳定性提升:更稳定的梯度估计,加速收敛。灵活性高:适用于 NLP、CV、大模型训练等场景。“梯度累积 = 小步快跑,积少成多,最终一步到位更新模型。

#机器学习#算法#人工智能
大模型prompt-Tuning方法进阶

Prompt-Tuning 是通过设计任务相关的模板或指令,引导预训练模型完成下游任务的技术。其核心思想是通过少量可训练参数或示例,激发模型隐含的知识,从而减少对全量微调的依赖。指令学习通过明确的任务指令(Instruction)降低模型歧义性,提升复杂任务的泛化能力。CoT 通过引入中间推理步骤,提升模型在复杂推理任务(如数学问题)中的表现。PEFT 通过仅微调少量参数,降低大模型训练成本,同时

#人工智能
LLM主流开源大模型分类与特性

Hugging Face开发的多语言模型(支持46种语言+13种编程语言),最大参数量176B。:由清华大学开发的开源中英双语对话模型,基于GLM架构,参数量62亿。:Meta AI开发的英文为主的开源模型,参数量从7B到65B。:深度求索实验室开发的中文优化模型,参数量从67B到671B。:阿里巴巴开发的大规模开源模型,参数量从18亿到720亿。:1.4T token(65B版本),不含中文语料

#人工智能#深度学习#transformer +1
ChatGPT及GPT系列模型总结

GPT(Generative Pre-trained Transformer)系列模型通过逐步增加模型规模、优化训练方法和引入人类反馈,实现了从基础语言模型到对话型AI的跨越。,它通过“人类标注-奖励建模-强化学习”三阶段流程,使模型更贴合人类价值观和交互需求。尽管存在服务稳定性等问题,但其在自然语言生成领域的突破性进展已显著降低AI技术的使用门槛。GPT系列模型通过逐步扩大规模、优化训练方法和引

#人工智能#神经网络#深度学习
One-Hot编码 + 相似度计算:余弦相似度 vs. 欧氏距离

wi​vi​0...1...0isimAB∣A∣⋅∣B∣A⋅B​dAB∑i1n​Ai​−Bi​2​sim就是余弦cosθsim是的缩写,sklearn中相关方法也叫这个名字,如下所示。

#机器学习#人工智能#深度学习 +1
LLM主要架构详细总结

LLM(Large Language Model,大语言模型)基于。:GPT-3、LLaMA、PaLM、Claude 等。:当前大模型(如GPT-3、LLaMA)主要采用。BERT 完全基于 Transformer 的。GPT 仅使用 Transformer 的。架构,因其训练效率更高,生成能力更强。

#人工智能#语言模型#深度学习
大模型提示工程指南详细总结

进阶技巧多角度摘要生成基于角色的摘要(客服/经理视角)信息抽取式摘要。

#人工智能#机器学习#语言模型
    共 12 条
  • 1
  • 2
  • 请选择