
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文探讨了如何构建AIAgent从演示可用到生产可靠的测评体系,提出了一套覆盖功能、过程、效率、鲁棒性和体验五大维度的测评框架。针对Agent的非确定性、黑盒化和错误级联放大三大挑战,设计了确定性评分器、模型评分器和人工评分器三类组合的评估方案,并详细阐述了用例设计、基线管理、评分规则等关键环节的实施方法。以TPerf性能分析Agent为例,展示了该测评体系的实际应用,包括并发执行、多模型对比和自

这一章做了两件事:调通 LLM API,套上终端 UI 支持多轮对话。Messages 里 user 和 assistant 交替出现的惯例,会深刻影响后面 Agent 循环里的消息管理逻辑。响应里的 content 永远是数组而不是字符串,这个设计到工具调用的时候会变得非常重要。流式响应是基本要求。

OCR技术演进与多模态应用:从传统字符识别到结构化文档理解 本文系统梳理了OCR技术从传统字符识别到多模态理解的演进历程。传统OCR(1.0)基于CNN+LSTM架构,专注于文字检测与识别;而现代OCR(2.0)融合视觉Transformer、布局分析和视觉语言对齐技术,实现了语义理解和结构化输出。以GPT-4V、Gemini等为代表的多模态大模型(VLM)进一步推动了OCR向文档理解发展,使其具

保存助手回复到 MySQL,并将完整的对话对(用户消息+助手回复)保存到向量数据库,供未来检索使用 这种设计实现了"检索在生成前,保存在生成后"的流程,确保每次生成回复时都能利用历史相似对话的上下文,同时将新对话持续积累到长期记忆中。在 LangChain 中,LCEL(LangChain Expression Language)是构建处理流程的核心方式,它通过直观的“管道”(| 操作符)将不同组

Taku构建了一个统一AI开发平台,通过三层架构实现高效应用开发:Runtime层支持项目功能快速拼接与运行;统一协议层让不同项目能无缝互调;记忆共享层实现跨应用数据同步。平台解决了AI开发中的内循环加速但外循环受阻的问题,强调组织流程优化的重要性。同时介绍了类似工具QClaw的配置体系,包括CLAUDE.md核心指令文件、模块化rules文件夹、自定义commands等功能模块,展示了如何通过结

本文介绍了RAG系统中的文档切分技术,重点阐述了数据清洗的核心原则、文档切分的重要性以及LlamaIndex框架中的切分工具。数据清洗需遵循语义完整性、度控制、重叠率等原则,针对不同文档类型采用专门策略。文档切分直接影响RAG系统的检索准确性和生成质量,LlamaIndex提供了TextSplitter、NodeParser等多种切分工具,包括TokenTextSplitter、SentenceS

摘要:Ollama是一个开源的大模型本地运行框架,支持LLaMA架构模型,通过Modelfile封装模型权重和配置实现自动化部署。本文介绍了Ollama的安装方法(Linux系统下执行curl命令)、DeepSeek-R1模型下载启动流程,以及多GPU部署配置(修改SystemD服务)。重点讲解了Ollama的REST API服务(默认端口11434),包括/api/generate和/api/c

摘要:ClaudeCode源码泄露源于构建工具Bun默认生成sourcemap文件未清理,导致59.8MB的.map文件被发布到npm。系统架构包含40多个权限控制工具、46K行查询引擎、KAIROS后台助手模式和ULTRAPLAN远程规划。创新的OpenClaw记忆系统采用SQLite分层存储(L0原始-L3核心),通过异步I/O和智能组合实现90%的Token节省,并支持类似Git的分支管理。

摘要:本文介绍了一种通过二进制量化技术将RAG内存效率提升32倍的方法。工作流程包括:1)文档二进制嵌入向量生成;2)创建二进制向量索引;3)高效检索相似文档;4)大模型生成回复。关键技术点包括:使用LlamaIndex导入文档,将32位浮点向量转换为1位二进制向量,采用汉明距离进行相似度计算,结合Groq平台实现快速响应。该方法在30毫秒内可完成3600万向量检索,1秒内生成回复,显著提升了RA

RAG技术:知识检索与大模型生成的融合应用 RAG(检索增强生成)技术通过结合外部知识检索与大语言模型生成能力,有效解决了模型幻觉和知识时效性问题。其核心流程包括数据预处理、检索和生成三阶段:将文档切块并向量化存入数据库,通过混合检索策略匹配用户问题,最后结合检索内容生成精准答案。RAG架构从基础版演进至模块化、智能体版本,支持复杂任务处理。相比传统大模型,RAG具有实时更新、答案可追溯、轻量化等








