登录社区云,与社区用户共同成长
邀请您加入社区
本文用通俗易懂的语言和实际案例,解释了AI大模型的三个关键问题:上下文窗口如同AI的“短期记忆”,窗口越大处理长文档和复杂对话能力越强;推理成本中,输出比输入更贵是因为生成内容需要更多算力;不同模型各有优势,如GPT-5.2逻辑强、Claude长文档处理佳、Gemini多模态出色等,国产模型性价比高,选择时应按需进行。掌握这些知识能高效利用AI,避免选型陷阱。
本文用通俗语言解释了大模型是什么,通过类比“超级大脑”帮助读者理解其概念。文章详细介绍了大模型的“大”体现在参数量和数据量上,以及其学习过程包括预训练和微调。同时列举了大模型的应用能力、局限性以及普通人学习的基础要求,并提供了入门级工具和学习路径建议。最后强调大模型是技术结晶,鼓励读者积极学习。
Grok Vision Beta的局限:其已开放企业级API测试版,支持批量调用与异步调用,但仅支持图像理解、视觉问答等基础功能,未开放图像分类、目标检测等核心视觉任务的自定义训练接口。此外,其上下文窗口仅为8K tokens,无法处理超长文本关联的视觉任务。竞品的优势Qwen2.5-VL是唯一开放全功能自定义训练接口的模型,企业用户可基于自身数据集微调模型,适配工业场景的定制化需求;
视觉 - 语言模型(VLM)是处理和理解文本与图像的强大工具。本文以主流视觉语言模型 LLaVA 为研究对象,探究其语言模型模块中视觉词元的处理机制。研究重点包括:目标信息的定位、视觉词元表征在各层中的演化规律,以及预测过程中的视觉信息融合机理。通过消融实验发现:移除专属目标词元后,模型的目标识别准确率下降超过70%。实验同时观察到:随着层数加深,视觉词元表征在词表空间中变得越来越可解释,说明视觉
清华大学与智谱AI团队提出DeepRAG框架,创新性地将检索操作深度融入大模型的思维链推理过程。该方法通过特殊标记<search>实现"边想边查"的动态检索机制,在生成思维链时自主判断检索时机与内容。实验表明,DeepRAG在HotpotQA等多跳推理任务上显著优于现有方法,检索效率提升30%的同时准确率提高10%。该研究突破了传统RAG"检索-推理割裂&
对开发者、中小团队、职场创作者来说,调用大厂AI模型一直绕不开两大难题:要么接口分散、对接繁琐,挨个平台注册审核耗时耗力;要么付费API定价偏高,测试阶段和小规模使用成本居高不下,想低成本体验顶尖大模型性能,往往难上加难。,注册即可直接调用,零门槛解锁大厂AI能力,其中主推的,更是凭借硬核实力成为免费模型中的佼佼者,适配开发、办公、推理全场景,闭眼体验都不亏!
尽管大语言模型(LLMs)具备出色的能力,但它们容易产生**幻觉**,即生成与预训练所见事实不符的内容。本文针对预训练大语言模型,提出一种简洁的解码策略以降低幻觉。该方法既不需要依托检索得到的外部知识,也无需额外微调。利用“大语言模型中的事实知识通常集中分布在特定 Transformer 层”这一特性,我们将深层和浅层隐状态映射到词表空间,并对比两者的对数概率分布,从而得到下一词的输出分布。我们发
多模态大语言模型(MLLM)将大语言模型原生的文本生成能力与对其他模态信息的理解能力相结合,在开放式任务中具备广阔的应用前景。然而,尽管这类模型取得了长足进展,但其往往会生成看似合理、实则错误的内容。这一现象被称为幻觉,严重限制了模型的实际落地应用。本文从输入词元与输出词元的交互角度,深入探究了幻觉的内在成因。研究发现:当输出词元对图像词元的注意力下降时,模型更容易产生幻觉。基于这一发现,本文提出
在当前将大语言模型引入图学习领域的浪潮中,**图符号化大语言模型** 是目前的主流范式。它们的标准做法是将复杂的图结构和节点文本属性编码成一个图标记序列,将其作为前缀输入基座大模型,最后利用基于文本的节点分类等指令进行自回归微调。然而,研究人员敏锐地发现了一个逻辑漏洞:**我们试图让大模型理解图结构,却仅仅使用最终输出的文本是否正确来作为唯一的监督信号**。这种高度以大模型为中心的训练方式,导致模
你有没有过这种感受,就是在给 AI 下达一系列执行任务或者在使用claude、gemini写代码的时候,会发现AI思考轮次越多,AI变的越笨了? 随着任务越来越复杂,AI的脑子好像开始变得“不太好使”了,开始在无关的细节里打转,甚至忘了最开始你给它定的目标是啥?
本文适合AI Agent技术管理者、开发者、产品经理及爱好者阅读,通过实践层面的指导,帮您实现更合理的方案与更高效的实施。
在 LLM 领域,中文的「推理」对应两个不同的英文术语,一个是 Inference ,也可以叫 Testing(测试),相对的概念是 Training(训练);另一个是 Reasoning,指的就是类似福尔摩斯的那种推理——对已知信息进行逻辑演绎或综合,进而推导出新的知识或结论的过程。它是人类智力活动的核心,也是许多高价值应用(如医学诊断、法律决策、科学研究等)的必须环节。如果一个 LLM 只会「
大型语言模型(LLM),如 ChatGPT,可以被形象地比作「**互联网的压缩文件**」。这个「压缩文件」里存储了海量的知识和信息,但与普通压缩文件不同的是,它不是精确无损的,而是带有一定的模糊性和概率性。换句话说,LLM 并不能完美地记住互联网上的每一个细节,而是通过学习大量数据,掌握了知识的「大概」和「趋势」。
模型上下文协议(Model Context Protocol,MCP)** 是一种专为大语言模型(LLM)设计的开放通信协议。它的核心使命是让 LLM 应用与外部数据源和工具无缝连接。简单来说,MCP 是一个标准化的「桥梁」,连接 LLM 和各种外部资源,让它们在安全、可控的环境下协作。
2023 年,当 ChatGPT 惊艳世界时,很多人第一次意识到:原来 AI 不仅能背课文,还能写代码、编故事、解数学题。这些聪明表现的背后,得益于大语言模型(LLM)的两个关键训练阶段:**预训练**(Pretraining)和**后训练**(Post-training)。
如果你最近刷过科技新闻或者 X 平台,可能会发现「AI Agent」这个词频频出现。它听起来很酷,像科幻电影里的智能助手,但它到底是什么?为什么 2023 年以后突然又火了起来?
本文详细解析了RAG系统中至关重要的Embedding模型与ReRank模型。首先介绍了RAG的概念及其解决LLM知识有限、易胡说八道、数据过时等问题的原理。接着深入讲解了Embedding模型如何将文字转换为向量进行语义匹配,以及ReRank模型如何对检索结果进行精细排序。文章还提供了主流模型的选型建议、核心参数配置、两阶段检索流程实战代码示例,并总结了性能优化技巧。通过学习本文,程序员小白可以
本文深入探讨了 Agent 缺乏记忆系统的痛点,区分了上下文窗口与记忆系统的概念,详细介绍了短期记忆和长期记忆的机制及其在 Agent 架构中的位置。通过一个客服 Agent 场景,阐述了记忆系统如何提升用户体验。文章还提供了一个最小可用的记忆系统实现方案,包含对话缓存、摘要模块、记忆存储、记忆管理器等组件,并指出了常见的记忆设计误区。最后强调记忆系统对 Agent 规划与反思能力的重要性。
理解世界的AI只是大脑,能操作世界的AI才是行动者。” —— Antonio Gulli,《智能体设计模式》
本文介绍了Hugging Face工具中pipeline和tokenizer的基本使用方法。在pipeline部分,讲解了如何加载预训练模型进行文本分类任务,包括直接加载模型目录或分别加载模型和分词器的方法。tokenizer部分详细说明了encode、decode、encode_plus等核心功能,以及如何控制填充、截断等参数设置。Model部分对比了AutoModel、AutoConfig和A
本文从零推导了Eino框架中的Supervisor模式实现原理,揭示了其作为Flow网络特化拓扑的本质。文章通过两个关键演进步骤: 强制转移约束:通过DeterministicTransferWrapper包装器,确保小兵只能将任务返回给主管,维护星型拓扑结构; 统一追踪容器:通过SupervisorContainer包装器,为整个网络提供统一的Trace Root,解决可观测性割裂问题。 最终映
Claude Feature Dev 插件摘要 核心价值:将资深工程师的完整开发流程产品化为七阶段AI工作流 关键阶段: 需求发现 - 精确界定功能范围 代码库探索 - 系统分析现有架构 边界澄清 - 提出关键实施问题 架构设计 - 提供多方案对比 代码实现 - 生成可运行代码 质量审查 - 自动化代码检查 文档总结 - 生成维护文档 技术亮点: 集成代码探索/架构设计等多个Agent协同工作 每
摘要: 大语言模型(LLM)的发展经历了从早期规则系统(如ELIZA)到统计方法(n-gram、Word2Vec)的演变。2017年Transformer架构的提出(自注意力机制)开启了技术革命,随后GPT、BERT等模型通过预训练范式推动进步。2020年GPT-3(1750亿参数)展现涌现能力,而ChatGPT(2022年)凭借RLHF技术实现自然交互,成为现象级产品。当前生态百花齐放(Clau
大语言模型,本质上是通过算力拆解语义,拟合人类认知世界的方式,最终呈现出"智能"的样子。它做的事情并不神秘:把语言变成数字,用注意力机制理解上下文关系,再从词汇表里挑出最合适的下一个词。一遍又一遍,直到说完整句话。像 DeepSeek-V3 这样的顶级模型,核心代码也不超过1000 行。复杂的是参数量和训练数据,而不是流程本身。
本文系统介绍了Coze智能体开发平台中工作流节点的使用方法,涵盖业务逻辑节点、数据库与知识库节点等核心功能模块。业务逻辑节点包括选择器、意图识别、循环、批处理等,可实现条件分支、意图流转、数据循环处理等功能;数据库节点支持数据表的新增、查询、更新等完整CRUD操作。文章通过具体配置示例和运行效果展示,帮助开发者掌握工作流搭建技巧,构建高效稳定的智能体应用。
本文梳理了大语言模型架构的四个关键发展阶段:RNN/LSTM时代(2013-2017)解决了短视问题但受限于串行计算;Transformer革命(2017)通过自注意力机制实现并行计算和全局视野;三大架构分化期(2018-2020)形成Encoder-only(BERT)、Decoder-only(GPT)和Encoder-Decoder(T5)三种范式;大模型时代(2020至今)Decoder-
如何在一个统一的端到端模型中同时实现高精度的文档解析、布局分析和语义理解,从而解决传统多阶段流水线存在的误差传播和视觉上下文丢失问题?论文提出了Qianfan-OCR,一个4B参数的端到端模型,通过引入"Layout-as-Thought"机制,在保持端到端优势的同时恢复了显式布局分析能力,并在多项基准测试中超越现有流水线系统及通用大模型。
**VibeVoice-ASR是微软开源的90亿参数统一语音识别模型**,基于Qwen2 Decoder架构,采用64K token超长上下文窗口与7.5 Hz超低帧率语音分词技术,实现了ASR(自动语音识别)、说话人分离(Diarization)和时间戳标注(Timestamping)三大任务的端到端联合建模。该模型支持中英双语,可单次处理长达60分钟的连续音频,输出"Who-When-What
QClaw是一款基于OpenClaw开源生态的本地化AI助手,相比OpenClaw具有五大优势:开箱即用(无需复杂配置)、可视化操作(提供图形界面)、微信深度集成(支持远程控制)、自动化管理(内置守护进程)和一站式技能库(预装5000+技能)。用户只需安装客户端并微信扫码绑定,即可通过微信指令远程操控电脑执行文件整理、文档处理、邮件发送等任务,所有数据均在本地运行确保隐私安全。QClaw还支持一键
编辑,在},},:和内置 Provider 合并,而不是覆盖。漏了这个字段会导致内置模型全部消失:声明端点协议类型。如果目标端点走 Anthropic 协议,改成models数组:显式声明可用模型。和maxTokens是可选的,但建议填上——OpenClaw 会根据这些值决定上下文截断策略如果输出里能看到等模型,说明配置生效。
26年3月来自浙大和理想汽车的论文“Unifying Language-Action Understanding and Generation for Autonomous Driving”。视觉-语言-动作(VLA)模型正逐渐成为端到端自动驾驶领域极具前景的范式,其价值在于能够利用世界知识并推理复杂的驾驶场景。然而,现有方法存在两个关键局限性:语言指令与动作输出之间持续存在的不匹配,以及典型自回
26年3月来自清华、小米汽车和澳门大学的论文“LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving”。视觉-语言-动作(VLA)模型通过统一感知和规划,彻底革新自动驾驶技术,但其对显式文本思维链(CoT)的依赖导致语义-感知的解耦和感知-符号的冲突。近年
Kimi团队提出注意力残差(AttnRes)技术,解决大语言模型中PreNorm范式导致的残差连接稀释问题。该技术将序列维度的注意力机制扩展到深度维度,使模型能自主选择前序层信息。通过分块设计(BlockAttnRes)和工程优化,将内存开销从O(Ld)降至O(Nd),实现训练/推理开销低于4%和2%。实验表明,AttnRes在不同规模模型上均能提升性能,在复杂推理任务中表现尤为突出。该技术为大模
本篇导读:这是 LangChain 系列教程的第 1 篇。如果你是 AI 开发新手,想快速了解 LangChain 能做什么、为什么选择它,这篇文章就是为你准备的。读完预计需要 5 分钟。
本文全面讲解向量表征(Embedding)核心知识,从基础定义、本质逻辑、技术演进,到文本向量生成、相似度计算方法层层拆解,覆盖 NLP、RAG、推荐系统等主流应用场景;搭配 Ollama 实战可视化代码,直观呈现文本向量空间分布规律,帮读者快速掌握 AI 语义检索底层技术,打通理论到实操的全流程认知。
整理一些常见八股问题,用于面试复习。
《Reflexion框架:语言反馈驱动的LLM智能体学习优化》 摘要:针对传统强化学习在LLM智能体中应用成本高的问题,Reflexion框架提出创新解决方案。该框架通过语言反馈替代权重更新,包含四个核心组件:行动者生成决策、评估者评分输出、自我反思模型生成改进建议,以及记忆系统存储反思内容。实验证明,在AlfWorld决策、HotPotQA推理和编程任务中,Reflexion显著提升智能体表现,
本文提出在标准softmax注意力机制中引入头部特定Sigmoid门控,最佳位置为SDPA输出处。该方法通过引入非线性增强模型表达能力,产生查询相关的稀疏门控,有效消除注意力沉没现象。实验表明,门控机制显著提升模型性能(降低困惑度、提高基准测试分数)和训练稳定性(减少损失尖峰、允许更大学习率),且计算开销低于2%。关键发现包括:头特定门控优于共享门控、乘法门控优于加法门控、查询相关稀疏性对性能至关
作者认为,LLMs 中涌现的推理能力(few-shot learning、chain-of-thought 等),其本质依赖的是自然语言的底层计算结构,而非其语义内容本身。自然语言文本之所以有用,不是因为它谈论的是人类世界,而是因为它蕴含了从推理轨迹到程序性指令的多样结构——next-token prediction 迫使模型内化支持这些结构的潜在计算过程。
大型语言模型(LLM)的自回归生成本质,决定了提示词(Prompt)是约束模型输出分布、对齐任务目标的核心载体。提示工程并非「话术优化」,而是一门融合了自然语言理解、概率统计、推理系统设计与工程化迭代的交叉技术。本文基于Google官方白皮书的技术框架,从LLM生成的底层数学原理出发,逐层拆解输出配置的采样算法机制、12种核心提示范式的技术逻辑与适用边界、代码场景的全生命周期提示方案,最终落地为工
在当前 GAI(生成式人工智能)横行的时代,AI 换脸、AI 绘图技术让“有图有真相”的格言彻底破灭。看内容:早期关注单模态,后来演变为多模态(图文对齐),但难以识别 AI 生成的高级伪造。看关系:关注传播网络(谁在转,谁在评),但忽略了新闻本身的语义。框架应运而生,它通过两个“情报中心”同时解决“内容真不真”和“传的像不像”的问题。MMTC 证明了在处理 AI 造假的假新闻时,单纯依靠图文内容已
概念原理比喻不同类型的 RNN根据输入序列长度 �� 与输出序列长度 �� 的对应关系,RNN 可适配不同任务结构,如分类、序列标注、生成等不同规格的传送带:有的只收一件吐一件,有的收一排给一个结果语言模型(LM)建模序列的条件概率分布 �(��∣�<�),在已知前文的情况下预测下一个 token根据已经写下的内容,猜作者下一笔会写什么语言模型的训练逻辑在时间步 �,用前 �−1 个 token
Claude Code 是一个代理编码工具,可以读取你的代码库、编辑文件、运行命令,并与你的开发工具集成。可在终端、IDE、桌面应用和浏览器中使用。Claude Code 是一个由 AI 驱动的编码助手,可以帮助你构建功能、修复错误和自动化开发任务。它理解你的整个代码库,可以跨多个文件和工具工作以完成任务。
本文针对京东平台化妆品评论中正负情感类别不平衡问题,提出基于深度文本挖掘的消费者情感分析方法。研究采用结巴分词和TF-IDF特征提取结合N-gram模型进行文本预处理,通过类别权重调整解决类别失衡问题,并比较了四种停用词策略的效果。实验结果表明:无停用词策略更适配深度学习模型;经贝叶斯优化后,LSTM模型的负面情感预测F1值最优(0.8598),CNN模型达0.8521,而逻辑回归仅微增至0.81
随后,Cursor承认基于Kimi K2.5模型,Kimi官方也确认双方为合规商业合作。Kimi是由北京月之暗面科技有限公司开发的AI助手,其K2.5版本是一个开源的大语言模型,具备强大的长文本处理能力和编程能力。开发者@fynnso在配置Cursor的API时,意外发现模型ID为:kimi-k2p5-rl-0317-s515-fast,直接指向Kimi K2.5模型。承认Composer 2基于
语言模型
——语言模型
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net