登录社区云,与社区用户共同成长
邀请您加入社区
本文深入探讨了MCP协议的传输层实现,详细介绍了四种不同的传输方式:Stdio、HTTP+SSE、StreamableHTTP和WebSocket。Stdio通过标准输入输出实现轻量级本地进程通信;HTTP+SSE采用单向推送技术;StreamableHTTP整合了POST和SSE实现双向通信;WebSocket则提供全双工低延迟通道。文章解析了每种传输方式的客户端和服务端实现原理,包括消息打包、
MCP Python SDK源码解析:协议层实现剖析 本文深入分析了MCP Python SDK中协议层的实现机制。MCP架构包含Host、Client和Server三个核心组件,通过JSON-RPC 2.0协议进行通信。BaseSession类作为协议层核心,实现了消息封装、请求/响应关联等基础功能,其泛型设计支持多种消息类型处理。ClientSession和ServerSession继承Bas
图像描述生成(Image Captioning)作为多模态AI的核心任务之一,实现了“视觉理解+语言生成”的跨模态交互,而BLIP模型与Hugging Face生态的结合,让开发者无需从零搭建模型、调试推理流程,仅需几行代码就能实现工业级效果。本文在原有一键运行代码的基础上,重点深度解析BLIP模型的核心设计与优势,以及Hugging Face生态如何实现模型的快速落地,同时保留可直接运行的代码实
大模型推理的基本原理与标准介绍
自然语言处理(NLP)是人工智能的核心领域,研究如何让计算机理解和生成人类语言。大语言模型(LLM)是NLP发展的最新成果,实现了从规则系统到智能涌现的突破。NLP包含自然语言理解(NLU)和生成(NLG)两大方向,传统方法依赖人工规则,而LLM通过Transformer架构实现了统一处理各类语言任务的能力。大模型将翻译、摘要、问答等传统NLP任务整合为提示词指令,彻底改变了该领域的研究范式。NL
通过手把手的代码对比,本文将展示如何将旧版的 initialize_agent 平滑迁移至最新的 create_agent API,并深入解析了 1.0+ 版本引入的 中间件(Middleware) 机制。文章附带完整的实战案例与自动化验证脚本,旨在帮助开发者快速掌握 LangChain 新时代的 Agent 开发核心能力,构建更稳定、可控、具备生产级工程能力的智能体应用。
专家混合模型(MoE)是提升大模型性能的关键技术,通过稀疏激活机制在保持计算效率的同时扩展模型容量。其核心是路由机制(如Top-K),动态选择少数专家处理输入,实现计算与参数的动态平衡。MoE面临负载均衡、并行计算等工程挑战,但通过合理的路由设计(如TC/EC模式)和负载均衡策略可有效解决。实验表明,MoE在大规模场景下优势显著,能高效利用计算资源提升模型表现,该技术为扩展LLM能力提供了重要思路
关于OpenCompass 大模型评测的记录
LangChain 1.0 版本的核心变革是将 LCEL(LangChain Expression Language)从 “推荐新方案” 升级为 “唯一生产级标准范式”,彻底淘汰了旧版 Legacy Chains 体系。本文将深入解析 LCEL 的核心设计理念、LangChain 1.0 对 LCEL 的关键升级、生产级实战场景及落地指南,所有内容均基于 LangChain 1.0 + 最新规范验
本文详细介绍了使用Llama-Factory平台对Qwen3-VL-2B-Instruct多模态模型进行微调的全过程。主要包括:1)克隆Qwen3-VL项目并下载模型;2)获取并预处理open-eqa数据集;3)配置Llama-Factory环境,使用LoRA方法进行3轮微调训练;4)在测试集上评估模型性能,获得BLEU-4(28.37)、ROUGE-1(34.76)等指标;5)融合适配器与基础模
在大模型应用开发中,提示词(Prompt)是连接人类需求与模型能力的核心桥梁。但很多开发者在使用大模型时,仍停留在 “手写字符串提示词” 的阶段,不仅复用性差、维护成本高,还难以实现复杂的交互逻辑。LangChain 作为大模型应用开发的主流框架,提供了一套结构化的提示词组件,通过PromptTemplate、ChatPromptTemplate等核心工具,结合format、invoke等调用方法
Elastic Attention 是我们在 Dynamic Sparse Attention 方向的一次尝试。通过引入 MoE 路由机制,我们打破了静态稀疏注意力的限制,证明了“动态路由”在 Attention 层同样大有可为。目前代码、模型和论文均已开源,欢迎大家 Star、引用和交流!PaperCodeModel如果你对长文本优化、MoE 架构或底层算子优化感兴趣,欢迎在评论区留言讨论!
当你和 ChatGPT、GPT-4 或文心一言对话时,输入的每一段文字都会被拆解成一个个看不见的 “积木”——Token。这些 Token 是大模型理解和生成文本的基本单位,决定了模型能处理的上下文长度、生成效率,甚至 API 调用成本。本文将从底层原理出发,带你彻底搞懂大模型生成 Token 的全过程,以及它如何影响大模型的表现。
本文摘要: 《与模型对话:提示工程基础》系统介绍了与语言模型交互的核心技术。首先解析了高质量提示的四大要素:角色设定、明确指令、上下文背景和输出格式规范。重点讲解了Zero-shot直接提问和Few-shot示例引导两种核心方法,并提供了Few-shot的最佳实践建议。文章深入探讨了思维链(CoT)技术,通过让模型展示推理过程来提升复杂问题的解决能力。还介绍了ReAct模式、结构化输出、采样参数控
带你穿越NLP发展史,理解为什么我们需要大语言模型,以及它们如何从"词袋"进化到"大脑"。
本文介绍了参数高效微调(PEFT)技术的背景与发展。随着预训练模型参数规模扩大,全量微调面临计算成本高、存储压力大等问题。研究者提出PEFT技术,仅调整少量参数或添加小型模块来适应下游任务。重点分析了两种PEFT方法:Adapter Tuning通过在Transformer层插入小型适配器模块实现微调;Prefix Tuning则通过添加可训练的前缀激活值来引导模型输出。这些方法显著降低了微调成本
本文介绍了DataFlow-Agent框架中的NL2Pipeline功能,它能够将自然语言描述的数据处理需求自动转化为可执行的DataFlow Pipeline。NL2Pipeline通过多轮对话理解用户意图,拆解任务并映射到现有算子,生成推荐流程并支持自动调试。文章详细展示了两种使用方式:自定义手动编排和Agent自动推荐模式,包括环境部署、参数配置和Pipeline执行全过程。该系统旨在帮助工
本文针对垂直领域SFT训练中的三大痛点——模型基础能力退化、生成内容单一化和格式不稳定,提出基于Y-Trainer的NLIRG算法解决方案。该算法通过动态调整token级梯度分配,实现训练信号的精准控制:对低loss token削减梯度防止过拟合,中等loss token增强学习效率,高loss token隔离噪声影响。相比传统数据侧优化方法,Y-Trainer在单卡环境下即可构建可复现的训练流程
我们是一家专注于房产科技领域的创新企业,致力于运用先进的人工智能技术,提升房产交易的效率与体验。秉持着 “科技赋能房产,创新引领未来” 的理念,我们不断探索技术边界,推动房产交易行业的智能化升级。凭借对技术的执着和对市场的敏锐洞察,已在房产科技领域崭露头角,成为行业内备受瞩目的创新力量。
model_name='D:/AI/pro/modelscope/BAAI/bge-large-zh-v1___5' cache_folder=None model_kwargs={} encode_kwargs={} query_instruction='为这个句子生成表示以用于检索相关文章:' embed_instruction='' show_progress=False。找到相应的id对应
论文标题:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning发布时间:2025 年 1 月 [2501.12948]论文地址:https://arxiv.org/pdf/2501.12948v1Github 地址:https://github.com/deepseek-ai/DeepS
回译数据增强是一种基于翻译的文本数据增强方法,其核心思想是利用翻译工具将原始文本翻译成目标语言,然后再将其翻译回源语言。通过这一过程,生成的文本虽然语义与原文保持一致,但表述方式可能发生变化,从而扩展数据的特征空间。回译数据增强法通过多语言翻译和回译生成多样化的文本数据,扩充数据集。介绍了回译的原理、优势以及高重复率问题的解决方案,提供了完整的实现代码。进阶数据增强方法探讨了多种基于文本的增强技术
参考项目:https://www.modelscope.cn/datasets/gongjy/minimind_dataset。
检索增强这块主要是借鉴了RAG Fusion技术,这个技术原理比较简单,概括起来就是,当接受用户Query时,让大模型生成5-10个相似的Query,然后每个Query去匹配5-10个文本块,接着对所有返回的文本块再做个倒序融合排序,如果有需求就在加一个精排,最后取top k个文本块拼接至Prompt;它是在一个语料库上进行训练的,其中包含由Critic模型预测的检索到的段落和反思字符。因此,可以
可从。
在上一篇,我们解读了《Fast Transformer Decoding: One Write-Head is All You Need》这篇文章,确认了MHA在Decode阶段的问题,分析了MQA方法带来的优化。具体来说,MQA的KV Cache压缩成了原来1hh1hhh为注意力头的个数),增加了计算强度,缓解了问题;同时,KV Cache的减少意味着可以增加batch size,也即可以同时
PandaChat是一款支持Web端调用MCP服务的多LLM提供商客户端工具。它可以将API转化为MCP服务,支持服务器部署避免本地环境干扰,提供MCP客户端和API接口转换功能。特点包括多LLM支持、Web端访问和chrome插件集成,暂不支持知识库功能。部署简单,只需克隆仓库、安装依赖后运行main.py即可通过浏览器访问。项目还包含视频演示和chrome插件安装指南,适用于需要远程调用MCP
以下是一个结合FastAPI和LlamaIndex实现RAG(检索增强生成)功能的案例,将各个环节串一下,备查
PFC 2D 二维直剪,代码逐行解释,提供源文件。。嘿,各位岩土工程或者离散元爱好者们!今天咱来唠唠PFC 2D里二维直剪的事儿,顺便把代码给大家扒一扒,逐行解释清楚,最后源文件也双手奉上,大家拿去就可以自己实操。咱先来说说啥是PFC 2D二维直剪。简单来讲,它就是在颗粒流程序(PFC)的二维环境下,模拟材料在剪切力作用下的力学响应,这对研究土体、岩石等颗粒材料的剪切特性特别有用。
在cpu环境下通过xinference离线加载glm4-chat
摘要: 本文详细介绍Stanford CoreNLP的部署方法,这是一个由斯坦福大学开发的一站式自然语言处理工具包。文章首先说明实验环境(Ubuntu 24.04/Java 17),然后简要介绍CoreNLP的核心功能,包括分词、词性标注、命名实体识别等。部署步骤包括:创建安装目录、下载核心包和语言模型(中英文)、配置系统服务实现开机自启。最后通过三种方式验证服务是否成功启动。该工具支持15+种语
nlp
——nlp
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net