
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
UniGRPO是一个统一强化学习框架,旨在优化文本-图像交错生成过程。它将"Prompt→Thinking→Image"流程建模为马尔可夫决策过程,通过GRPO联合优化文本推理和图像生成策略。关键创新包括:1)去除CFG引导,通过奖励优化内化对齐能力;2)采用velocity MSE正则替代潜在空间KL约束,实现均匀步长控制。模型首先生成多条推理链扩展用户prompt,再基于这
在前面的章节中,我们学习了如何使用现有的 MCP 服务。并且也了解到了不同协议的特点。现在,让我们学习如何构建自己的 MCP 服务器。10.5.1 创建你的第一个 MCP 服务器(1)为什么要构建自定义 MCP 服务器?虽然可以直接使用公开的 MCP 服务,但在许多实际应用场景中,需要构建自定义的 MCP 服务器以满足特定需求。主要动机包括以下几点:封装业务逻辑:将企业内部特有的业务流程或复杂操作
摘要:本文解析了MCP、A2A和ANP三种协议的核心设计理念与应用场景。MCP通过标准化接口实现智能体与外部系统的可靠交互,解决数据接入与幻觉问题;A2A采用对话机制协调多智能体协作,处理复杂任务的拆解与对齐;ANP则从网络拓扑角度保障系统的可扩展性与容错能力。在智能客服系统中,三者可协同工作:ANP负责请求路由与扩缩容,A2A管理多智能体协作流程,MCP提供数据查询与工具调用能力。这种分层架构既
Temperature参数控制AI模型输出的随机性程度,范围通常为0-1。低温度(如0)使模型选择最高概率词,确保输出严谨稳定,适合代码生成;中等温度(如0.7)增加多样性,适合需要创造性的内容;高温度(如1+)会显著提升低概率词的选择机会,可能产生错误但富有创意的结果。在代码编写等需要精确性的任务中应使用低温度,而在解释概念等需要多样表达时可适当提高温度。该参数通过调整softmax函数的概率分
Claude Code采用分层注入系统(5层)优化上下文管理,解决指令过载问题并控制安全风险。核心设计包括:基础系统规则层(Layer 1)、可忽略的项目约定层(Layer 2)、用户触发的斜杠命令层(Layer 3)、按需加载的技能层(Layer 4)和隔离执行的子代理层(Layer 5)。关键创新是使用<system-reminder>标签实现"合法忽略"机制,
本文介绍了Qwen2.5模型在预训练和后训练阶段的优化策略。预训练阶段包括:1)数据质量评估与过滤,采用Qwen2-Instruct模型评分,优化数据配比并引入优质数学/代码数据;2)超参数缩放法则,通过公式计算最佳学习率和批量大小;3)长文本预训练,采用两阶段训练(4k→32k token)结合ABF、YARN和双分块注意力技术。后训练阶段创新包括:1)扩大监督微调数据覆盖范围,针对长序列生成、
摘要:Claude Code架构解析 Claude Code的核心是LLM驱动的工具调用循环,其智能来源于模型自身的决策能力而非复杂调度。从v0到v4的演进展示了关键设计理念:通过外置认知结构增强模型能力。v0仅用bash工具证明基础循环的可行性;v1优化工程实现;v2引入Todo列表作为外部工作记忆;v3通过子代理实现上下文隔离;v4将知识从参数剥离到Skill文件系统。整体架构保持克制,LLM
《智能体技术演进与核心架构》摘要:本文系统梳理智能体技术发展历程与核心架构。智能体定义为具备感知-思考-行动闭环的目标驱动系统,其发展经历了符号主义(专家系统、SHRDLU)、联结主义(神经网络)、强化学习(AlphaGo)到LLM驱动的四代范式跃迁。现代LLM智能体融合神经符号主义,通过大语言模型实现规划、推理、工具调用等复杂功能。文章详细分析了智能体分类维度(决策架构/时间特性/知识表示)、运
本文介绍了语言模型的发展历程,从传统的N-gram模型到基于神经网络的改进方法。N-gram模型通过马尔可夫假设计算词序列概率,但存在数据稀疏和泛化能力差的问题。神经网络语言模型引入词嵌入技术,将词语表示为连续向量,解决了泛化问题。随后出现的RNN和LSTM通过记忆机制处理序列数据,但仍面临长期依赖和并行计算困难。Transformer架构完全基于注意力机制,实现了并行计算,其核心是多头自注意力模
本文介绍了Claude Code工具的使用指南,主要包括六个方面:1.基础操作,包括安装插件、常用指令、文件管理和图片处理;2.交互与会话管理,涉及清除上下文、快捷键、中断操作和自定义命令;3.提示与思考策略,推荐使用XML结构化提示和预激活思考模式;4.软件开发实践,强调任务拆解和项目上下文理解;5.成本管理,介绍模型切换和token监控工具;6.进阶功能,如使用Git worktrees实现并







