logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

claude code使用技巧-完成通知

windows环境下,claude code使用技巧笔记。

claude code使用技巧-快速最高权限启动

windows环境下,claude code使用技巧笔记。

claude code使用技巧-完成通知

windows环境下,claude code使用技巧笔记。

claude code使用技巧-快速最高权限启动

windows环境下,claude code使用技巧笔记。

AI-大语言模型LLM-LangChainV1.0学习笔记-模型不同调用方式的差异

实现原理继承ChatOpenAI,重写响应解析方法拦截原始响应,提取将其注入到返回的AIMessage中完整实现代码"""支持获取推理过程的 ChatOpenAI 子类专为 DeepSeek-R1 模型设计"""# 自动添加必要的 extra_body 参数"""重写响应解析方法,捕获 reasoning_content"""# 1. 先调用父类方法获取标准结果# 2. 从原始响应中提取 reas

#人工智能#语言模型#学习
AI-大语言模型LLM-Transformer架构4-多头注意力、掩码注意力、交叉注意力

在前文Transformer架构2-自注意力中,讲到上图中的1号、2号注意力都是自注意力,而在详细架构图中,他们又被描述为多头注意力、掩码注意力等。这些注意力的类型并非互斥,他们只是从不同的角度对注意力机制进行的分类按Q、K、V的不同来源分类自注意力:Q、K、V来自同一个序列交叉注意力:Q、K、V来自不同的序列,上图3号编码器-解码器注意力是一种具体的交叉注意力,它的Q来自解码器(的输出序列),K

#人工智能#语言模型#transformer
AI-大语言模型LLM-模型文件说明

为避免一学就会、一用就废,这里做下笔记。

#人工智能#语言模型#自然语言处理
AI-大语言模型LLM-Transformer架构5-残差连接与前馈网络

本文重点介绍了Transformer架构中的残差连接和前馈网络(FFN)两大关键组件。残差连接通过将输入与输出相加并归一化,解决了深层网络的梯度消失问题,保留了浅层信息。前馈网络则作为非线性处理单元,与注意力机制互补:注意力层建立词间关系,FFN对每个词进行深度特征提取。两者协同工作,使Transformer既能捕捉全局依赖又能学习复杂模式。这些组件在编码器和解码器堆栈中重复使用,共同构成了Tra

#人工智能#语言模型#transformer
    共 62 条
  • 1
  • 2
  • 3
  • 7
  • 请选择