
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
2024,鸿蒙生态全面进化关键之年!这是华为终端BG、首席运营官何刚在微博新年第一天的公开喊话。同时,余承东在2024新年信中也强调:构建强大的鸿蒙生态将成为华为未来的重要战略方向。华为两位重量级人物新年不约而同将关注点放在鸿蒙,这也预示着2024年鸿蒙必将有大动作。

大模型推理部署框架的选择应基于业务需求、硬件资源和未来扩展规划。vLLM和TensorRT-LLM在企业级高并发场景下表现最佳,SGLang在高吞吐量和多轮对话场景下具有明显优势,Ollama适合个人开发和快速原型验证,XInference和LightLLM则在分布式部署和边缘计算方面展现出潜力,LMDeploy和昇腾框架则在国产硬件适配上具有独特优势。

这几个名词概念的混乱,也许是所谓“AI”泡沫或者“算力”泡沫的来源。AI更像一个比较通用的概念,群众受过去科幻作品的影响,会本能认为AI,人工智能就是电影里那种有自主意识,会判断决策学习进化的真正智能。实际上它确实就是这么定义的。
从 Chatbot 到 Agent,上下文正从“输入的一部分”进化为“系统状态的集中体现”。未来的 AI 不再仅仅是利用人类数据进行预训练,而是通过与环境的自主交互,在“干中学”中积累经验。上下文工程,正是承载这些“经验”的容器。在 Agent 时代,掌握上下文工程,就是掌握了通往通用人工智能(AGI)的工程钥匙。
经过前面两节的学习,我们已经可以精准的提取文档的内容了。接下来就要对提取出来的内容进行“加工处理”。很多开发者在搭建 RAG 系统时,往往把 90% 的精力花在了选择哪个大模型、调优哪种 Embedding 向量上。但等到系统上线一测试,却发现模型经常“胡言乱语”:要么找不到重点,要么回答得支离破碎。其实,问题可能出在你最容易忽略的一步:文档分块(Chunking)。在 RAG 的世界里,如果说大

本文尝试建立一个 Agent 记忆的分类框架。核心维度• 关于用户:个性化的基础• 关于自我:进化的基础• 关于世界:行动的基础• 关于他者:协作的基础辅助维度• 抽象层次:原始 → 事实 → 模式• 时间跨度:工作 → 会话 → 长期• 可共享性:私有 → 可共享 → 公共这些维度交叉,形成了一个完整的分类空间。每一类记忆有不同的特性,需要不同的存储、检索、更新策略。但分类只是起点。权衡:在有限

微软与Salesforce研究发现,大语言模型在多轮对话中性能平均下滑约39%,出现"对话迷路"现象。研究团队通过实验发现,所有模型在信息逐步补充的对话中表现明显变差,主要表现为过早给出不完整答案、反复重写、遗忘中间信息等问题。研究建议用户尽量一次性提供完整需求,产品团队应增加信息复述机制,而模型厂商则需提升多轮对话的可靠性。这一发现对AI助手开发和实际应用具有重要启示。

RAG技术从2020年发展至今,已形成从基础到前沿的完整技术谱系。新兴技术如GraphRAG、Agentic RAG等推动了系统性能边界不断扩展,而主流框架的成熟则为不同应用场景提供了多种选择。未来,随着技术与业务场景的深度融合,RAG将继续作为解决大模型知识局限性的核心方案,在企业智能化转型中发挥关键作用。开发者应结合具体需求,理性选择技术路线,确保RAG系统既能解决实际问题,又具备面向未来的扩
OpenAI发布GPT Image 1.5图像生成与编辑模型,实现4倍速度提升、更强指令理解与编辑能力,细节真实感显著增强。该模型在多项排行榜超越谷歌Nano Banana Pro,免费开放给所有ChatGPT用户并提供API接口。这标志着AI图像技术从简单生成向可控、可复用的创意生产系统转变,为开发者提供更强大的视觉创作工具。

企业级RAG系统面临五大挑战,包括数据时效性、上下文断裂、检索局限等。提升精度需从多方面入手:选择优质LLM和嵌入模型、建立评估体系、采用混合检索、引入PageIndex和GraphRAG技术,以及拥抱AI Agent时代的Self-RAG、CRAG和Adaptive RAG等方法,同时优化上下文工程和多模态处理能力。








