
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文系统综述了AI智能体记忆系统研究进展,提出"形式-功能-动态"三维分类框架。文章探讨记忆作为智能体核心能力的重要性,详细分析三种记忆形式(令牌级、参数化、潜在记忆)、三类功能角色(事实、经验、工作记忆)及其动态演化机制,为智能体研究提供理论基础,并讨论未来挑战与应用前景。

AI Agent工程现状报告显示,超57%企业已将Agent投产,客服与数据分析为主要应用场景。质量是最大挑战,可观测性和评估体系成为标配。多模型策略主导市场,编码Agent领跑日常应用。Agent工程正从新兴概念发展为成熟学科,企业关注点从成本转向让Agent运行良好。

文章详解了大模型微调的三种技术:PT、SFT和DPO,包括它们的工作原理、数据要求和适用场景。文章指出微调成本高、技术门槛高,建议优先考虑提示词工程和RAG等替代方案。只有在特定领域专业知识、特殊输出格式、私有数据深度理解和高性能要求时才考虑微调,并推荐了适合不同技术水平的平台。

RAG技术通过检索增强生成,将外部数据与大模型结合,有效解决大模型幻觉、数据实时性、保密性和可解释性问题。其核心过程包括文本分割、向量化、向量数据库存储、查询处理、相似性检索、结果重排序和答案生成。RAG的核心价值体现在信息增强、领域适配和隐私安全三个方面,为专业场景提供更精准、安全的大模型应用解决方案,是构建本地化知识库的关键技术。

大模型因其庞大的参数量和复杂结构,在多个领域展现出卓越的性能。以下将详细介绍不同类型的大模型在各种任务上的精度表现,以及它们在具体应用中的优势和局限性。

pretrain 的全环节大抵如此,我列出来的每个环节我认为都是同等重要的。之前看见有种说法说洗数据是脏简历的工作,恕我不能认同。如果 infra 团队已经帮忙调通了 megatron 的训练代码,那么训练才是真的最没技术含量的工作,改几个参数,然后 bash train.sh,训练挂了就重启,这些工作谁做不来呢?反倒是洗数据时的灵光一现,往往能大大提升模型的效果。因此,“数据篇”也是我笔墨最多的

AI大模型的发展,既是技术的跃迁,更是人类智慧的延伸。从DeepSeek的崛起到全球开源社区的繁荣,我们见证了一个更开放、更智能的时代正在到来。未来,AI将不仅是工具,而是成为人类探索未知、实现普惠的伙伴。让我们以技术为舟、以合作为桨,共同驶向智能时代的星辰大海!

我们知道 LLM的知识库是通过现有的网络公开的数据作为数据源来训练的,现在公开的很多模型他们基于的训练数据会比我们现在网络上公开的数据早很多,那自然就会产生一种问题,网络上最新的数据和知识 LLM是不知道。还有一种情况就是很多企业他们对自己的数据的安全做的很好,也就是私有化数据(这些数据是有价值的,也是企业的立足之本)。这些数据网络上肯定是不存在,那自然 LLM也是不知道的。

Hugging Face是AI开发的核心生态系统,包含Hub平台和工具链库。本文详解了Transformers库中的模型加载(AutoModel、AutoModelForXXX)、Tokenizer使用(文本处理与编码)以及Datasets库(数据加载、预处理与保存)。通过这些工具,开发者可高效实现从数据处理到模型训练的全流程,是入门大模型开发的必备知识。

本地部署大模型,再构建个人知识库,跑自己的文档、数据等,有很多好处。比如,隐私的财务数据可以借力AI大模型做总结,股票数据实时接入到大模型做数据分析,个人word文档批量读取做总结等。我提出的方案基于LLM大模型+文档检索方法,具有的优势:充分释放大模型能力,因为使用的是文档检索,而不是语义向量所以检索会更加高效,大大提升了回复效率;同时对电脑的性能要求直接降到最低,一般电脑也能玩起来了。你需要做








