拉普拉斯之妖44 个人主页

@weixin_71184753

拉普拉斯之妖44

2024-05-13 17:05:52 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

UniGRPO——多模态RL

UniGRPO是一个统一强化学习框架，旨在优化文本-图像交错生成过程。它将"Prompt→Thinking→Image"流程建模为马尔可夫决策过程，通过GRPO联合优化文本推理和图像生成策略。关键创新包括：1）去除CFG引导，通过奖励优化内化对齐能力；2）采用velocity MSE正则替代潜在空间KL约束，实现均匀步长控制。模型首先生成多条推理链扩展用户prompt，再基于这

#人工智能 #大数据

第十章智能体通信协议

在前面的章节中，我们学习了如何使用现有的 MCP 服务。并且也了解到了不同协议的特点。现在，让我们学习如何构建自己的 MCP 服务器。10.5.1 创建你的第一个 MCP 服务器（1）为什么要构建自定义 MCP 服务器？虽然可以直接使用公开的 MCP 服务，但在许多实际应用场景中，需要构建自定义的 MCP 服务器以满足特定需求。主要动机包括以下几点：封装业务逻辑：将企业内部特有的业务流程或复杂操作

#python #人工智能

agent智能体通信协议扩展

摘要：本文解析了MCP、A2A和ANP三种协议的核心设计理念与应用场景。MCP通过标准化接口实现智能体与外部系统的可靠交互，解决数据接入与幻觉问题；A2A采用对话机制协调多智能体协作，处理复杂任务的拆解与对齐；ANP则从网络拓扑角度保障系统的可扩展性与容错能力。在智能客服系统中，三者可协同工作：ANP负责请求路由与扩缩容，A2A管理多智能体协作流程，MCP提供数据查询与工具调用能力。这种分层架构既

#python

temperature定义与使用

Temperature参数控制AI模型输出的随机性程度，范围通常为0-1。低温度(如0)使模型选择最高概率词，确保输出严谨稳定，适合代码生成；中等温度(如0.7)增加多样性，适合需要创造性的内容；高温度(如1+)会显著提升低概率词的选择机会，可能产生错误但富有创意的结果。在代码编写等需要精确性的任务中应使用低温度，而在解释概念等需要多样表达时可适当提高温度。该参数通过调整softmax函数的概率分

Claude Code 逆向工程报告笔记（学习记录）

Claude Code采用分层注入系统（5层）优化上下文管理，解决指令过载问题并控制安全风险。核心设计包括：基础系统规则层（Layer 1）、可忽略的项目约定层（Layer 2）、用户触发的斜杠命令层（Layer 3）、按需加载的技能层（Layer 4）和隔离执行的子代理层（Layer 5）。关键创新是使用<system-reminder>标签实现"合法忽略"机制，

#学习 #数据库 #人工智能

qwen2.5技术报告分析下

本文介绍了Qwen2.5模型在预训练和后训练阶段的优化策略。预训练阶段包括：1）数据质量评估与过滤，采用Qwen2-Instruct模型评分，优化数据配比并引入优质数学/代码数据；2）超参数缩放法则，通过公式计算最佳学习率和批量大小；3）长文本预训练，采用两阶段训练（4k→32k token）结合ABF、YARN和双分块注意力技术。后训练阶段创新包括：1）扩大监督微调数据覆盖范围，针对长序列生成、

#人工智能

claude code架构猜测总结

摘要：Claude Code架构解析 Claude Code的核心是LLM驱动的工具调用循环，其智能来源于模型自身的决策能力而非复杂调度。从v0到v4的演进展示了关键设计理念：通过外置认知结构增强模型能力。v0仅用bash工具证明基础循环的可行性；v1优化工程实现；v2引入Todo列表作为外部工作记忆；v3通过子代理实现上下文隔离；v4将知识从参数剥离到Skill文件系统。整体架构保持克制，LLM

#架构

part1 第一章初识智能体+part1 第二章智能体发展史

《智能体技术演进与核心架构》摘要：本文系统梳理智能体技术发展历程与核心架构。智能体定义为具备感知-思考-行动闭环的目标驱动系统，其发展经历了符号主义（专家系统、SHRDLU）、联结主义（神经网络）、强化学习（AlphaGo）到LLM驱动的四代范式跃迁。现代LLM智能体融合神经符号主义，通过大语言模型实现规划、推理、工具调用等复杂功能。文章详细分析了智能体分类维度（决策架构/时间特性/知识表示）、运

#java #开发语言 #算法

agent模型基础

本文介绍了语言模型的发展历程，从传统的N-gram模型到基于神经网络的改进方法。N-gram模型通过马尔可夫假设计算词序列概率，但存在数据稀疏和泛化能力差的问题。神经网络语言模型引入词嵌入技术，将词语表示为连续向量，解决了泛化问题。随后出现的RNN和LSTM通过记忆机制处理序列数据，但仍面临长期依赖和并行计算困难。Transformer架构完全基于注意力机制，实现了并行计算，其核心是多头自注意力模

#语言模型 #人工智能 #自然语言处理

claude code使用技巧

本文介绍了Claude Code工具的使用指南，主要包括六个方面：1.基础操作，包括安装插件、常用指令、文件管理和图片处理；2.交互与会话管理，涉及清除上下文、快捷键、中断操作和自定义命令；3.提示与思考策略，推荐使用XML结构化提示和预激活思考模式；4.软件开发实践，强调任务拆解和项目上下文理解；5.成本管理，介绍模型切换和token监控工具；6.进阶功能，如使用Git worktrees实现并

#人工智能

共 51 条

请选择