logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

SpecBench:软件工程中大型语言模型智能体的规范级推理评估

本文提出SpecBench,首个专门评估AI模型在软件工程规范设计能力的基准。针对现有基准(如SWE-Bench)仅关注代码生成的局限,该研究从Kubernetes等5个开源项目的真实RFC流程中构建任务,要求模型识别规范缺陷(遗漏、歧义、不一致、不正确)。通过专家验证的金标准和SPI(主题-谓词-影响)标准化评估框架,实验显示最佳模型Codex-5.4准确率仅44.4%,揭示当前AI在规范级推理

#软件工程#语言模型#人工智能
局部相合,全局不一致:多组件大型语言模型智能体中组合不一致性的界定

摘要:本文研究多组件LLM智能体中的概率组合不一致性问题,发现即使各子组件局部概率校准,组合后仍可能违反概率公理(如概率和>1),导致"荷兰赌"风险。研究提出两个关键方法:(1)组合残差ε*量化系统与理想联合概率的距离,(2)确定性几何修复技术通过投影降低风险。实证显示34%-94%的组合存在不一致性,几何修复可将残差降至10^-16且成本仅1ms,显著优于检索增强、提示工程等替代方案。研究揭示了

#语言模型#概率论#人工智能
Claude Cookbooks:使用Claude的实用指南

《Claude Cookbooks实用指南》提供了使用Claude AI的全面资源,包含代码示例和教程。主要内容包括:功能展示(分类、摘要生成等)、工具集成(客户服务代理、SQL查询)、第三方数据源整合(Pinecone、维基百科)以及多模态处理能力(图像、图表解读)。项目要求Python基础和Claude API密钥,适合各层次开发者。还推荐了OpenAI Cookbook等同类项目作为补充资源

#人工智能
本地部署与实践指南:构建免费的AI开发助手系统(Claude Code + Ollama)

Claude Code 是一个能力强大的 Agent 框架,它远超一般的聊天机器人。它的核心能力包括:阅读整个项目结构、修改文件内容、执行终端命令、自动修复代码 Bug 等,这些能力在软件开发工作流中具有革命性意义。然而,使用其官方的 Claude API 进行深度、多次迭代的开发工作流时,其费用成本是难以承受的“沉没成本”。(在实际操作中,需确保此处能兼容本地模型的显示或模拟显示)这个过程不是一

#人工智能
[特殊字符] DeepSeek-V4 深度解析:从“万能模型”到“工程级AI操作系统”的演进

摘要: DeepSeek-V4 通过百万级上下文窗口、可靠Agent工作流和全面开源策略,实现了从“问答模型”向“AI操作系统”的范式升级。其技术突破体现在长文本结构化处理、工程任务全流程执行及企业级可信部署,推动AI应用从知识检索转向复杂问题自主解决。针对不同场景,提供Pro/Flash等版本适配私有化部署、快速开发和研究微调需求,标志着AI进入主动化、系统化的新阶段。

#人工智能
知识指南:本地化 AI 开发智能体架构(Claude Code + Ollama 实践指南)

本文档介绍了一种本地化AI开发智能体架构方案,通过整合Claude Code(Agent框架)、Ollama(本地LLM核心)和CC Switch(API代理适配层),构建了一个无需依赖商业API的高性价比AI开发平台。该方案采用三层架构设计,将商业Agent外壳与本地开源模型大脑相结合,实现了开发流程自动化、数据隐私保护和成本控制。文档详细阐述了技术架构、实施步骤(包括环境准备、关键配置和验证测

#人工智能#架构
高性能本地 AI Agent 工作流架构手册:Hermes Agent + Qwen3.6 组合部署

本手册提供的流程是您构建企业级私有 AI Agent 的蓝图。

#人工智能#架构
DeltaBox: 具备毫秒级沙箱快照与回滚能力的大规模状态化AI智能体解决方案

DeltaBox是一种操作系统级沙箱,专门针对状态化AI智能体(如MCTS或RL智能体)的状态管理瓶颈问题。传统方法难以高效同步文件系统状态和进程内存状态,而DeltaBox通过统一的事务性差分状态管理机制,实现了毫秒级的快照和回滚。其核心创新在于将I/O和状态变更视为可回滚事务,由状态追踪器统一管理增量变更。该技术适用于需要高频状态探索的场景,如MCTS搜索和RL环境模拟,并提供标准化的API接

#人工智能#大数据
[特殊字符] Qwen3.6-35B 8G VRAM 极限部署蓝图:资源受限环境下的多模态大模型运行指南

本文提供了一套在RTX 3070 8GB显存环境下部署Qwen3.6-35B多模态大模型的解决方案。核心思路是通过llama.cpp框架实现GPU显存和系统内存的协同计算:GPU处理注意力层,RAM存储MoE专家层参数。关键步骤包括:1)安装CUDA 13.1+驱动;2)下载主模型权重和视觉模块权重;3)配置批处理脚本实现GPU卸载和MoE优化。该方法利用Q4_K_M量化格式,结合Flash At

#人工智能
Agent 需要语义元数据吗?智能体数据检索中的比较研究

摘要: 研究表明,语义元数据对智能体数据检索至关重要。相比非结构化网络搜索,结构化语义数据在精度(FAIR合规性提升65.7%)、机器可读性(提升46.6%)和可靠性(末路失效极低)方面表现显著更优。语义智能体通过schema.org标记直接定位可执行数据,避免了基线智能体在文本页面中的噪声干扰。混合架构(语义优先+非结构化回退)能平衡精确度与覆盖率。核心结论:自主智能体需要结构化元数据作为可靠工

#人工智能
    共 158 条
  • 1
  • 2
  • 3
  • 16
  • 请选择