
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
DeepMind开源全栈「Deep Research」项目:DeepMind开源的「Deep Research」项目是一个面向科研、开发者和普通用户的全栈智能研究工具,它通过AI技术模拟人类研究员的思考方式,提供深度信息整合与分析能力。https://github.com/google-gemini/gemini-fullstack-langgraph-quickstart🔄 智能体通过研究和反

# note@[toc]# 一、Janus-Pro:解耦视觉编码,实现多模态高效统一anus-Pro是一个新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码分离为“理解”和“生成”两条路径,同时仍采用单一的Transformer架构进行处理,解决了以往方法的局限性。这种分离不仅缓解了视觉编码器在理解和生成中的角色冲突,还提升了框架的灵活性。## 技术亮点- 视觉编码解耦:采用独立的路径分别处

(数据库小助手、旅行规划、思维导图生成)Qwen-Agent是一个专门设计用于开发基于大型语言模型(LLM)的应用程序的框架。它不仅支持指令遵循、工具使用、规划和记忆能力,还能够处理从8K到100万tokens的文档,超越了传统长上下文模型的限制。这意味着开发者可以利用Qwen-Agent构建出能够理解和生成自然语言、执行复杂任务的智能代理应用。核心功能

Long CoT 的出现现象:研究表明,上下文示例能够引导模型生成推理链,标准化推理链的生成过程。通过实验发现,仅保留逻辑结构的上下文示例也能实现与完整示例相似的性能,强调了 Long CoT 在推理中对逻辑结构的模仿能力。• 推理边界的限制:研究指出,RLMs 在推理任务中存在性能上限,当任务复杂度超过模型的推理边界时,性能会下降。例如,在代码生成任务中,模型在处理复杂逻辑时会遇到困难。此外,模

作为一个推理模型,QwQ-32B-preview的综合表现已全面超越常规模型,如GPT-4o和Claude3.5Sonnet。一个是学习,学习利用搜索生成的数据进行策略改进。过程奖励模型(PRM)比结果奖励模型(ORM)更适合复杂的推理任务,因为它不仅奖励最终结果,还奖励中间步骤。试用链接:https://huggingface.co/spaces/Qwen/QwQ-32B-preview。官方博

# note- LlamaIndex 实现 Agent 需要导入 `ReActAgent` 和 `Function Tool`,循环执行:推理、行动、观察、优化推理、重复进行。可以在 `arize_phoenix` 中看到 agent 的具体提示词,工具被装换成了提示词- ReActAgent 使得业务自动向代码转换成为可能,只要有 API 模型就可以调用,很多业务场景都适用,LlamaIndex

Codex & Codex CLICodex Cli、对标 Claude Code适合:喜欢命令行、自动化脚本、批量处理任务。特点:轻量、快速、可集成 CI/CD。✅ 在您的 IDE 中尝试支持 VS Code、Cursor、Windsurf 等。特点:图形界面友好,适合日常开发、边写边问。适合:喜欢命令行、自动化脚本、批量处理任务。特点:轻量、快速、可集成 CI/CD。✅ 在您的 IDE 中尝试

# note- 一个完整的agent有模型 (Model)、工具 (Tools)、编排层 (Orchestration Layer)- 一个好的结构化 Prompt 模板,某种意义上是构建了一个好的全局思维链。 如 LangGPT 中展示的模板设计时就考虑了如下思维链:Role (角色) -> Profile(角色简介)—> Profile 下的 skill (角色技能) -> Rules (角色

REINFORCE Leave-One-Out (RLOO) 基于经典的 REINFORCE 策略梯度方法,通过留一法(Leave-One-Out)构造无偏的优势函数基线。我们基于 GRPO(Group Relative Policy Optimization)算法进行对比说明。GRPO vs RLOO 的主要区别GRPO 和 RLOO 都采用组内对比的方式来估计优势函数,避免了全局基线估计带来的

VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks1、研究背景研究问题:这篇文章要解决的问题是如何在长链推理任务(long chain-of-thought reasoning)中提高基于价值模型的强化学习(RL)方法的效率和可靠性。研究难点:该问题的研究难点包括:价值模型偏差、异








