登录社区云,与社区用户共同成长
邀请您加入社区
本项目针对现有大模型在数学解题和多模态理解上的不足,开发了Nano-Math模型。基于Qwen2.5-VL-3B-Instruct进行微调,使其具备图文数学推理和长链式思考(LCOT)能力。项目包含完整数据集(25万问答对)、训练代码和WebUI界面,采用4张RTX4090进行训练,使用KnOTS技术合并LoRA权重解决过拟合问题。关键创新点包括:1) 增强数学解题能力;2) 支持图片输入的多模态
Natural Language Kit提供文本语义理解能力,支持分词处理和实体识别两大核心功能。分词功能可智能切分多语言文本,适用于搜索引擎、机器翻译等场景;实体识别能精准提取10余种特定实体,如人名、地址、手机号等,应用于简历解析、合同分析等领域。通过简单API调用即可实现文本处理,输出结构化结果,为智能客服、内容审核等应用提供基础NLP支持。
HuggingFace是机器学习领域的知名开源社区,被誉为"机器学习界的GitHub"。最初作为聊天机器人服务商,却因开源Transformer库意外走红。平台主要提供两大核心服务:1)丰富的预训练模型库(如GPT、BERT等),通过简洁API实现文本分类、翻译等任务;2)海量数据集资源(81万+),涵盖NLP、CV等领域。用户可通过简单pip安装快速调用模型和数据集,无需重复
本文深入探讨 LangChain 1.0 的核心接口标准 Runnable,详解其如何统一所有可执行组件的接口,并支撑 LCEL(LangChain Expression Language)的运行语义。通过实例代码展示 Runnable 的使用方法和 LCEL 的组合能力,帮助开发者构建可组合、可并行、可路由的链式执行流程。
在上述测评内容中,我仅对每个AI开发平台的突出优势进行了大概的说明,下面是我对这些AI开发平台平台名称一体化能力本地部署易用性国产适配面向人群TitanIDE 智算版⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐政企 / 科研 / 国产替代⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐❌个人开发者 / 科研⭐⭐❌⭐⭐⭐⭐⭐❌学生 / 入门者飞桨 PaddlePaddle⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐教育 / 工业AI⭐⭐❌⭐
本文系统讲解了Transformer架构在生成任务中的核心原理与应用。重点解析了Encoder-Decoder结构、MaskedAttention机制和位置编码等关键技术,并深入对比了训练时的TeacherForcing与推理时的Autoregressive模式差异。文章还介绍了KVCache优化和BeamSearch等实用技巧,为理解现代大模型工作原理提供了清晰框架,特别适合考研复试准备。
本文介绍了Nexent智能体平台的本地部署与使用体验。首先通过官方演示体验了Nexent的快速响应能力,随后详细讲解了基于Docker的轻量级安装部署过程,仅需执行几行命令即可完成配置。文章重点说明了应用和模型的环境配置步骤,包括接入阿里云Qwen模型的方法。最后通过测试问答验证了部署效果,展示了该平台操作简便、响应迅速的特点,特别适合个人开发者快速搭建AI应用。整个部署过程仅需几分钟,体现了Ne
本文从"AI复活逝者"的叙事切入,揭示大语言模型本质是概率分布模拟器——一场精密的文字接龙。当数据量突破临界规模,统计规律产生"理解"的涌现幻觉,但AI并无意识或意图。RLHF训练架构虽能约束输出,却埋下隐患:当"好"的定义出错,整个系统将系统性偏离。AI"复活"逝者只是语言行为模仿,与照片、录像无本质区别,无法复制第一人称主观体验。目标对齐存在结构性脆弱——价值的符号化必然失真,层级崩塌风险潜伏
本文详细介绍了在Llama-Factory中对多模态模型Qwen3-VL-2B进行LoRA微调的全流程,包括数据处理、训练配置、评估测试和部署应用。使用Open-EQA具身智能数据集进行训练,在16GB显存的Tesla T4显卡上完成了微调,验证损失稳定在1.2683,显示良好泛化能力。测试阶段BLEU-4达29.4966,ROUGE指标表现均衡。文章提供了两种部署方案:通过Ollama实现本地命
2. 自制数据集——使用Ollama本地部署的DeepSeek-R1-32B-Distill和DeepSeek-V3.2(deepseek-chat)API以及专利和文献文本资料制作得到。3)为了提高数据利用效率,根据训练模型时设置的cut_off_length(例如为32768)将长文本截断为多条数据,例如一个长文本的总长度为327680,则将该长文本截断为10条数据,总共得到1200条数据,每
本文深入探讨了MCP协议的传输层实现,详细介绍了四种不同的传输方式:Stdio、HTTP+SSE、StreamableHTTP和WebSocket。Stdio通过标准输入输出实现轻量级本地进程通信;HTTP+SSE采用单向推送技术;StreamableHTTP整合了POST和SSE实现双向通信;WebSocket则提供全双工低延迟通道。文章解析了每种传输方式的客户端和服务端实现原理,包括消息打包、
MCP Python SDK源码解析:协议层实现剖析 本文深入分析了MCP Python SDK中协议层的实现机制。MCP架构包含Host、Client和Server三个核心组件,通过JSON-RPC 2.0协议进行通信。BaseSession类作为协议层核心,实现了消息封装、请求/响应关联等基础功能,其泛型设计支持多种消息类型处理。ClientSession和ServerSession继承Bas
大模型推理的基本原理与标准介绍
自然语言处理(NLP)是人工智能的核心领域,研究如何让计算机理解和生成人类语言。大语言模型(LLM)是NLP发展的最新成果,实现了从规则系统到智能涌现的突破。NLP包含自然语言理解(NLU)和生成(NLG)两大方向,传统方法依赖人工规则,而LLM通过Transformer架构实现了统一处理各类语言任务的能力。大模型将翻译、摘要、问答等传统NLP任务整合为提示词指令,彻底改变了该领域的研究范式。NL
通过手把手的代码对比,本文将展示如何将旧版的 initialize_agent 平滑迁移至最新的 create_agent API,并深入解析了 1.0+ 版本引入的 中间件(Middleware) 机制。文章附带完整的实战案例与自动化验证脚本,旨在帮助开发者快速掌握 LangChain 新时代的 Agent 开发核心能力,构建更稳定、可控、具备生产级工程能力的智能体应用。
关于OpenCompass 大模型评测的记录
LangChain 1.0 版本的核心变革是将 LCEL(LangChain Expression Language)从 “推荐新方案” 升级为 “唯一生产级标准范式”,彻底淘汰了旧版 Legacy Chains 体系。本文将深入解析 LCEL 的核心设计理念、LangChain 1.0 对 LCEL 的关键升级、生产级实战场景及落地指南,所有内容均基于 LangChain 1.0 + 最新规范验
本文详细介绍了使用Llama-Factory平台对Qwen3-VL-2B-Instruct多模态模型进行微调的全过程。主要包括:1)克隆Qwen3-VL项目并下载模型;2)获取并预处理open-eqa数据集;3)配置Llama-Factory环境,使用LoRA方法进行3轮微调训练;4)在测试集上评估模型性能,获得BLEU-4(28.37)、ROUGE-1(34.76)等指标;5)融合适配器与基础模
在大模型应用开发中,提示词(Prompt)是连接人类需求与模型能力的核心桥梁。但很多开发者在使用大模型时,仍停留在 “手写字符串提示词” 的阶段,不仅复用性差、维护成本高,还难以实现复杂的交互逻辑。LangChain 作为大模型应用开发的主流框架,提供了一套结构化的提示词组件,通过PromptTemplate、ChatPromptTemplate等核心工具,结合format、invoke等调用方法
Elastic Attention 是我们在 Dynamic Sparse Attention 方向的一次尝试。通过引入 MoE 路由机制,我们打破了静态稀疏注意力的限制,证明了“动态路由”在 Attention 层同样大有可为。目前代码、模型和论文均已开源,欢迎大家 Star、引用和交流!PaperCodeModel如果你对长文本优化、MoE 架构或底层算子优化感兴趣,欢迎在评论区留言讨论!
当你和 ChatGPT、GPT-4 或文心一言对话时,输入的每一段文字都会被拆解成一个个看不见的 “积木”——Token。这些 Token 是大模型理解和生成文本的基本单位,决定了模型能处理的上下文长度、生成效率,甚至 API 调用成本。本文将从底层原理出发,带你彻底搞懂大模型生成 Token 的全过程,以及它如何影响大模型的表现。
本文摘要: 《与模型对话:提示工程基础》系统介绍了与语言模型交互的核心技术。首先解析了高质量提示的四大要素:角色设定、明确指令、上下文背景和输出格式规范。重点讲解了Zero-shot直接提问和Few-shot示例引导两种核心方法,并提供了Few-shot的最佳实践建议。文章深入探讨了思维链(CoT)技术,通过让模型展示推理过程来提升复杂问题的解决能力。还介绍了ReAct模式、结构化输出、采样参数控
带你穿越NLP发展史,理解为什么我们需要大语言模型,以及它们如何从"词袋"进化到"大脑"。
本文介绍了参数高效微调(PEFT)技术的背景与发展。随着预训练模型参数规模扩大,全量微调面临计算成本高、存储压力大等问题。研究者提出PEFT技术,仅调整少量参数或添加小型模块来适应下游任务。重点分析了两种PEFT方法:Adapter Tuning通过在Transformer层插入小型适配器模块实现微调;Prefix Tuning则通过添加可训练的前缀激活值来引导模型输出。这些方法显著降低了微调成本
本文介绍了DataFlow-Agent框架中的NL2Pipeline功能,它能够将自然语言描述的数据处理需求自动转化为可执行的DataFlow Pipeline。NL2Pipeline通过多轮对话理解用户意图,拆解任务并映射到现有算子,生成推荐流程并支持自动调试。文章详细展示了两种使用方式:自定义手动编排和Agent自动推荐模式,包括环境部署、参数配置和Pipeline执行全过程。该系统旨在帮助工
我们是一家专注于房产科技领域的创新企业,致力于运用先进的人工智能技术,提升房产交易的效率与体验。秉持着 “科技赋能房产,创新引领未来” 的理念,我们不断探索技术边界,推动房产交易行业的智能化升级。凭借对技术的执着和对市场的敏锐洞察,已在房产科技领域崭露头角,成为行业内备受瞩目的创新力量。
model_name='D:/AI/pro/modelscope/BAAI/bge-large-zh-v1___5' cache_folder=None model_kwargs={} encode_kwargs={} query_instruction='为这个句子生成表示以用于检索相关文章:' embed_instruction='' show_progress=False。找到相应的id对应
论文标题:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning发布时间:2025 年 1 月 [2501.12948]论文地址:https://arxiv.org/pdf/2501.12948v1Github 地址:https://github.com/deepseek-ai/DeepS
回译数据增强是一种基于翻译的文本数据增强方法,其核心思想是利用翻译工具将原始文本翻译成目标语言,然后再将其翻译回源语言。通过这一过程,生成的文本虽然语义与原文保持一致,但表述方式可能发生变化,从而扩展数据的特征空间。回译数据增强法通过多语言翻译和回译生成多样化的文本数据,扩充数据集。介绍了回译的原理、优势以及高重复率问题的解决方案,提供了完整的实现代码。进阶数据增强方法探讨了多种基于文本的增强技术
参考项目:https://www.modelscope.cn/datasets/gongjy/minimind_dataset。
检索增强这块主要是借鉴了RAG Fusion技术,这个技术原理比较简单,概括起来就是,当接受用户Query时,让大模型生成5-10个相似的Query,然后每个Query去匹配5-10个文本块,接着对所有返回的文本块再做个倒序融合排序,如果有需求就在加一个精排,最后取top k个文本块拼接至Prompt;它是在一个语料库上进行训练的,其中包含由Critic模型预测的检索到的段落和反思字符。因此,可以
nlp
——nlp
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net