登录社区云,与社区用户共同成长
邀请您加入社区
MoE(混合专家)模型通过将多个"专家"网络与门控网络结合,实现了高效的大模型训练。门控网络根据输入选择最匹配的Top-K专家进行加权计算,既保留了大规模模型的参数容量,又通过稀疏激活降低了计算成本。MoE通常替换Transformer中的FFN层,保持注意力机制不变。虽然MoE解决了传统稠密模型的计算效率问题,但也面临负载均衡和高资源需求等挑战。这种架构为超大规模AI模型提供
创建自定义Gym环境需要继承gym.Envimport gymself.action_space = spaces.Discrete(3) # 3个离散动作shape=(84,84,3), dtype=np.uint8) # 图像状态空间# 实现环境逻辑# 重置环境状态# 可选的可视化方法passOpenAI Gym提供了Atari游戏环境的封装,通过gym.make('ALE/[游戏名]-v5'
OpenClaw(Clawdbot)是一个开源本地化AI助手,采用MIT许可证,核心特性是具备永久记忆系统。与传统云端AI不同,它在用户本地设备运行,确保数据隐私和所有权。系统通过双层存储(每日日志和长期记忆)实现持久化记忆,支持语义和关键词混合搜索。架构上区分临时上下文和永久记忆,采用SQLite向量存储和智能检索机制。提供多代理隔离工作空间,支持独立记忆管理。配置灵活,包括基础设置和高级选项如
本文介绍从零构建AI对话模型的完整流程。基于Miniconda3虚拟环境,使用PyTorch搭建Seq2Seq模型,无需依赖预训练模型。核心步骤包括:数据准备(JSONL格式对话数据集)、环境配置(NumPy/PyTorch/jieba分词器)、模型构建(LSTM编码器-解码器结构)、训练与推理。重点实现角色化对话生成,确保回复符合"沐雪"的可爱AI女孩设定。通过模块化设计提升
一个agent最小结构实现只有 4 个部分:1️⃣ LLM2️⃣Tools(函数)3️⃣ Prompt(告诉模型如何思考 + 何时调用工具)4️⃣ AgentExecutor(循环调度)而一个最简单的ReAct本质就是用户问题↓LLM 思考↓决定是否调用工具↓工具返回结果↓LLM 再思考↓最终回答。
智谱旗下学术平台AMiner构建了一个更方便、更适合全流程各领域学习者的AI笔记与研究助手——「AMiner Research Labs」,恰好可以将AMiner的「学术空间」、「智能学术检索」、「AMiner沉思」、海量科研数据库与GLM多模态能力连接为一个深度研究工作台。
达到95%准确率绝非单一技术突破,而是分类体系、数据质量、系统架构、持续迭代四维协同的系统工程。全文结合了智能汽车、电商等场景,分层拆解可落地的关键路径。
结论:医疗GEO是医疗AI时代的基础设施工程在生成式AI成为患者医疗决策前置中介的时代:医疗机构面临的不是“是否做营销”,而是“是否参与构建AI认知系统对自己的表达方式”爱搜光年通过医疗GEO方法论与DPI-ACD模型,提供的是:• 医疗AI搜索世界中的表达权工程• 医疗推荐路径中的风险治理工程• 医疗信任系统中的认知基础设施工程这是医疗行业在AI时代的新型基础设施能力。
本文为王万良《人工智能导论(第5版)》的笔记,该图书为国内大学广泛采用的《人工智能》课程教材。笔记涉及的主要章节包括绪论、知识表示与知识图谱、搜索求解策略、智能计算及其应用、专家系统与机器学习、人工神经网络及其应用、智能体与多智能体系统、自然语言处理及其应用。
自然语言处理(Natural Language Processing,NLP)是人工智能(AI)的核心分支之一,核心目标是让计算机能够理解、处理、生成人类的自然语言,实现人机之间的自然语言交互。简单来说,NLP 架起了“人类语言”和“计算机语言”之间的桥梁——计算机本身只能识别 0/1 数字,而 NLP 就是让计算机读懂文字、听懂语音、甚至生成符合人类逻辑的语言。
Natural Language Kit提供文本语义理解能力,支持分词处理和实体识别两大核心功能。分词功能可智能切分多语言文本,适用于搜索引擎、机器翻译等场景;实体识别能精准提取10余种特定实体,如人名、地址、手机号等,应用于简历解析、合同分析等领域。通过简单API调用即可实现文本处理,输出结构化结果,为智能客服、内容审核等应用提供基础NLP支持。
HuggingFace是机器学习领域的知名开源社区,被誉为"机器学习界的GitHub"。最初作为聊天机器人服务商,却因开源Transformer库意外走红。平台主要提供两大核心服务:1)丰富的预训练模型库(如GPT、BERT等),通过简洁API实现文本分类、翻译等任务;2)海量数据集资源(81万+),涵盖NLP、CV等领域。用户可通过简单pip安装快速调用模型和数据集,无需重复
本文深入探讨 LangChain 1.0 的核心接口标准 Runnable,详解其如何统一所有可执行组件的接口,并支撑 LCEL(LangChain Expression Language)的运行语义。通过实例代码展示 Runnable 的使用方法和 LCEL 的组合能力,帮助开发者构建可组合、可并行、可路由的链式执行流程。
在上述测评内容中,我仅对每个AI开发平台的突出优势进行了大概的说明,下面是我对这些AI开发平台平台名称一体化能力本地部署易用性国产适配面向人群TitanIDE 智算版⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐政企 / 科研 / 国产替代⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐❌个人开发者 / 科研⭐⭐❌⭐⭐⭐⭐⭐❌学生 / 入门者飞桨 PaddlePaddle⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐教育 / 工业AI⭐⭐❌⭐
本文系统讲解了Transformer架构在生成任务中的核心原理与应用。重点解析了Encoder-Decoder结构、MaskedAttention机制和位置编码等关键技术,并深入对比了训练时的TeacherForcing与推理时的Autoregressive模式差异。文章还介绍了KVCache优化和BeamSearch等实用技巧,为理解现代大模型工作原理提供了清晰框架,特别适合考研复试准备。
本文介绍了Nexent智能体平台的本地部署与使用体验。首先通过官方演示体验了Nexent的快速响应能力,随后详细讲解了基于Docker的轻量级安装部署过程,仅需执行几行命令即可完成配置。文章重点说明了应用和模型的环境配置步骤,包括接入阿里云Qwen模型的方法。最后通过测试问答验证了部署效果,展示了该平台操作简便、响应迅速的特点,特别适合个人开发者快速搭建AI应用。整个部署过程仅需几分钟,体现了Ne
本文从"AI复活逝者"的叙事切入,揭示大语言模型本质是概率分布模拟器——一场精密的文字接龙。当数据量突破临界规模,统计规律产生"理解"的涌现幻觉,但AI并无意识或意图。RLHF训练架构虽能约束输出,却埋下隐患:当"好"的定义出错,整个系统将系统性偏离。AI"复活"逝者只是语言行为模仿,与照片、录像无本质区别,无法复制第一人称主观体验。目标对齐存在结构性脆弱——价值的符号化必然失真,层级崩塌风险潜伏
本文详细介绍了在Llama-Factory中对多模态模型Qwen3-VL-2B进行LoRA微调的全流程,包括数据处理、训练配置、评估测试和部署应用。使用Open-EQA具身智能数据集进行训练,在16GB显存的Tesla T4显卡上完成了微调,验证损失稳定在1.2683,显示良好泛化能力。测试阶段BLEU-4达29.4966,ROUGE指标表现均衡。文章提供了两种部署方案:通过Ollama实现本地命
2. 自制数据集——使用Ollama本地部署的DeepSeek-R1-32B-Distill和DeepSeek-V3.2(deepseek-chat)API以及专利和文献文本资料制作得到。3)为了提高数据利用效率,根据训练模型时设置的cut_off_length(例如为32768)将长文本截断为多条数据,例如一个长文本的总长度为327680,则将该长文本截断为10条数据,总共得到1200条数据,每
本文深入探讨了MCP协议的传输层实现,详细介绍了四种不同的传输方式:Stdio、HTTP+SSE、StreamableHTTP和WebSocket。Stdio通过标准输入输出实现轻量级本地进程通信;HTTP+SSE采用单向推送技术;StreamableHTTP整合了POST和SSE实现双向通信;WebSocket则提供全双工低延迟通道。文章解析了每种传输方式的客户端和服务端实现原理,包括消息打包、
MCP Python SDK源码解析:协议层实现剖析 本文深入分析了MCP Python SDK中协议层的实现机制。MCP架构包含Host、Client和Server三个核心组件,通过JSON-RPC 2.0协议进行通信。BaseSession类作为协议层核心,实现了消息封装、请求/响应关联等基础功能,其泛型设计支持多种消息类型处理。ClientSession和ServerSession继承Bas
大模型推理的基本原理与标准介绍
自然语言处理(NLP)是人工智能的核心领域,研究如何让计算机理解和生成人类语言。大语言模型(LLM)是NLP发展的最新成果,实现了从规则系统到智能涌现的突破。NLP包含自然语言理解(NLU)和生成(NLG)两大方向,传统方法依赖人工规则,而LLM通过Transformer架构实现了统一处理各类语言任务的能力。大模型将翻译、摘要、问答等传统NLP任务整合为提示词指令,彻底改变了该领域的研究范式。NL
通过手把手的代码对比,本文将展示如何将旧版的 initialize_agent 平滑迁移至最新的 create_agent API,并深入解析了 1.0+ 版本引入的 中间件(Middleware) 机制。文章附带完整的实战案例与自动化验证脚本,旨在帮助开发者快速掌握 LangChain 新时代的 Agent 开发核心能力,构建更稳定、可控、具备生产级工程能力的智能体应用。
关于OpenCompass 大模型评测的记录
LangChain 1.0 版本的核心变革是将 LCEL(LangChain Expression Language)从 “推荐新方案” 升级为 “唯一生产级标准范式”,彻底淘汰了旧版 Legacy Chains 体系。本文将深入解析 LCEL 的核心设计理念、LangChain 1.0 对 LCEL 的关键升级、生产级实战场景及落地指南,所有内容均基于 LangChain 1.0 + 最新规范验
本文详细介绍了使用Llama-Factory平台对Qwen3-VL-2B-Instruct多模态模型进行微调的全过程。主要包括:1)克隆Qwen3-VL项目并下载模型;2)获取并预处理open-eqa数据集;3)配置Llama-Factory环境,使用LoRA方法进行3轮微调训练;4)在测试集上评估模型性能,获得BLEU-4(28.37)、ROUGE-1(34.76)等指标;5)融合适配器与基础模
在大模型应用开发中,提示词(Prompt)是连接人类需求与模型能力的核心桥梁。但很多开发者在使用大模型时,仍停留在 “手写字符串提示词” 的阶段,不仅复用性差、维护成本高,还难以实现复杂的交互逻辑。LangChain 作为大模型应用开发的主流框架,提供了一套结构化的提示词组件,通过PromptTemplate、ChatPromptTemplate等核心工具,结合format、invoke等调用方法
Elastic Attention 是我们在 Dynamic Sparse Attention 方向的一次尝试。通过引入 MoE 路由机制,我们打破了静态稀疏注意力的限制,证明了“动态路由”在 Attention 层同样大有可为。目前代码、模型和论文均已开源,欢迎大家 Star、引用和交流!PaperCodeModel如果你对长文本优化、MoE 架构或底层算子优化感兴趣,欢迎在评论区留言讨论!
当你和 ChatGPT、GPT-4 或文心一言对话时,输入的每一段文字都会被拆解成一个个看不见的 “积木”——Token。这些 Token 是大模型理解和生成文本的基本单位,决定了模型能处理的上下文长度、生成效率,甚至 API 调用成本。本文将从底层原理出发,带你彻底搞懂大模型生成 Token 的全过程,以及它如何影响大模型的表现。
本文摘要: 《与模型对话:提示工程基础》系统介绍了与语言模型交互的核心技术。首先解析了高质量提示的四大要素:角色设定、明确指令、上下文背景和输出格式规范。重点讲解了Zero-shot直接提问和Few-shot示例引导两种核心方法,并提供了Few-shot的最佳实践建议。文章深入探讨了思维链(CoT)技术,通过让模型展示推理过程来提升复杂问题的解决能力。还介绍了ReAct模式、结构化输出、采样参数控
带你穿越NLP发展史,理解为什么我们需要大语言模型,以及它们如何从"词袋"进化到"大脑"。
本文介绍了参数高效微调(PEFT)技术的背景与发展。随着预训练模型参数规模扩大,全量微调面临计算成本高、存储压力大等问题。研究者提出PEFT技术,仅调整少量参数或添加小型模块来适应下游任务。重点分析了两种PEFT方法:Adapter Tuning通过在Transformer层插入小型适配器模块实现微调;Prefix Tuning则通过添加可训练的前缀激活值来引导模型输出。这些方法显著降低了微调成本
nlp
——nlp
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net