
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
windows环境下,claude code使用技巧笔记。
windows环境下,claude code使用技巧笔记。
windows环境下,claude code使用技巧笔记。
windows环境下,claude code使用技巧笔记。
为避免一学就会、一用就废,这里做下笔记。
实现原理继承ChatOpenAI,重写响应解析方法拦截原始响应,提取将其注入到返回的AIMessage中完整实现代码"""支持获取推理过程的 ChatOpenAI 子类专为 DeepSeek-R1 模型设计"""# 自动添加必要的 extra_body 参数"""重写响应解析方法,捕获 reasoning_content"""# 1. 先调用父类方法获取标准结果# 2. 从原始响应中提取 reas
在前文Transformer架构2-自注意力中,讲到上图中的1号、2号注意力都是自注意力,而在详细架构图中,他们又被描述为多头注意力、掩码注意力等。这些注意力的类型并非互斥,他们只是从不同的角度对注意力机制进行的分类按Q、K、V的不同来源分类自注意力:Q、K、V来自同一个序列交叉注意力:Q、K、V来自不同的序列,上图3号编码器-解码器注意力是一种具体的交叉注意力,它的Q来自解码器(的输出序列),K
为避免一学就会、一用就废,这里做下笔记。
本文重点介绍了Transformer架构中的残差连接和前馈网络(FFN)两大关键组件。残差连接通过将输入与输出相加并归一化,解决了深层网络的梯度消失问题,保留了浅层信息。前馈网络则作为非线性处理单元,与注意力机制互补:注意力层建立词间关系,FFN对每个词进行深度特征提取。两者协同工作,使Transformer既能捕捉全局依赖又能学习复杂模式。这些组件在编码器和解码器堆栈中重复使用,共同构成了Tra







