登录社区云,与社区用户共同成长
邀请您加入社区
Qwen2.5-72B大模型三卡部署流程摘要:首先创建conda环境并安装vLLM和transformers。推荐手动下载AWQ量化模型(约40GB显存)加速部署。启动服务时需配置关键参数:3张GPU流水线并行(--pipeline-parallel-size 3)、AWQ量化(--quantization awq)、显存利用率0.93(--gpu-memory-utilization)。根据72
DeepSeekMoE通过创新的混合专家架构、潜在注意力缓存和优化的归一化策略,在模型规模与计算效率之间找到了新的平衡点。其在降低计算成本的同时保持了领先的性能水平,为大规模AI系统的可持续发展提供了新的思路。后续研究将探索该架构在多模态任务中的应用,以及路由算法的进一步优化。
25年12月来自上海交大、清华、旷视科技和迈驰智行公司的论文“GaussianDWM: 3D Gaussian Driving World Model for Unified Scene Understanding and Multi-Modal Generation”。随着生成模型的进步,驾驶世界模型(DWM)发展迅速。然而,现有的DWM缺乏三维场景理解能力,只能根据输入数据生成内容,而无法解释
26年1月来自博世、华盛顿大学(圣路易斯)、Arizona州立和Case Western Reserve大学的论文“UniDrive-WM: Unified Understanding, Planning and Generation World Model For Autonomous Driving”。世界模型已成为自动驾驶的核心,其中精确的场景理解和未来预测对于安全控制至关重要。近期研究探索
大语言模型是虚拟人的“大脑”,决定了虚拟人的交互上限。如果你需要全模态能力、完善的生态,通义千问Qwen系列是首选;如果你关注推理效率、部署成本,DeepSeek系列是最优解;如果你需要企业级合规性、垂直行业落地,GLM系列、百川系列更适配;如果你需要超长上下文、知识库问答能力,Kimi系列更有优势。而选择模型的核心,不是盲目追求参数最大、能力最全的模型,而是根据你的虚拟人落地场景,选择最适配、性
都说2025是Agent元年,但Agent真正走进千家万户是在2026年。那么,在2026年这个时间阶段,Agent到底需要什么样的基础模型?阶跃星辰产品负责人小狼,在魔搭开发者大会上给我们带来了答案。
大语言模型与私有部署
本文解析三种Prompt Caching实现的主流方案:OpenAI隐式缓存、Anthropic书签模式、Gemini资源模式。附选型决策树,帮你判断什么场景选什么方案。真正省钱的AI架构 = 知道什么时候用、怎么用、怎么衡量ROI。
深度任务编排系统的演进与核心设计 摘要:本文剖析了深度任务编排系统(Deep Agent)的设计演进过程。系统最初面临两大核心挑战:1) 如何避免工具数量爆炸导致模型幻觉,通过"单一task工具+动态描述"设计收敛入口;2) 如何应对无专业子节点可用的边界情况,引入通用子代理(general-purpose)作为兜底。关键创新在于使用中间件(Middleware)实现架构级能力
本文从第一性原理出发,逐步推导了Plan-Execute(计划-执行)Agent的设计演进过程: 基础原理:通过简单的for循环实现:生成计划→执行→更新计划"的基本流程 第一次演进:为解决控制流僵化和状态持久化问题,引入Graph和State抽象,将循环拆解为状态机的有向图结构 第二次演进:为应对大模型输出的不确定性,增加提示词模板和强制结构化解析器(Formatter & P
AI应用层技术成为2026年行业最大机遇,企业急需掌握RAG、Agent智能体和微调三大核心能力的开发人才。本文系统梳理了大模型应用开发的核心技术体系:通过Embedding实现语义检索,RAG增强知识准确性,微调定制领域能力,Prompt优化指令交互,以及上下文窗口管理文本长度。特别强调这些技术在智能客服、知识问答等场景的协同应用,并指出掌握这些技能的程序员薪资可达行业平均7.8万/月。文章最后
2026年AI将深度重塑产品经理职业:从需求翻译者转变为AI应用落地的关键桥梁。文章指出,AI产品经理需具备技术边界判断力、数据敏锐度和不确定性设计能力,在定义问题、设计人机协作、建立数据闭环等环节发挥不可替代作用。随着AI应用层爆发,掌握AI能力的产品经理薪资溢价达30-50%,成为职业发展的分水岭。建议从业者从理解技术边界开始,通过实战积累经验,将AI能力转化为核心竞争力。文章强调,在AI自主
摘要:企业AI落地时,模型微调并非必经之路。建议先充分尝试提示词工程和RAG(检索增强生成),仅当遇到深度行业术语、严格格式要求或高吞吐量优化时再考虑微调。微调需警惕"灾难性遗忘",可采用PEFT技术保留通用能力。AI应用开发应分三步走:先用Prompt和RAG验证价值,再针对性微调,最后保护模型通用性。当前大模型应用开发人才紧缺,掌握微调、RAG和Agent技术将成为核心竞争
你:"帮我写一封请假邮件"AI:"好的,这是一封请假邮件:尊敬的领导..."→ AI 帮你生成内容,但发送、跟进、记录都要你自己来。你:"下周三我要请假,帮我处理一下"AI:"好的,我已完成:✓ 查询了你的年假余额(剩余 8 天)✓ 检查了日历(周三无重要会议)✓ 起草了请假邮件并发送给领导✓ 在团队日历上标记了你的休假✓ 设置了休假前的工作提醒"→ AI 不仅生成内容,还执行完整任务流程。这就是
文章探讨了 RAG(检索增强生成)和长上下文两种 AI 技术路线的优劣。RAG 通过向量数据库辅助模型,但存在架构复杂、可能检索错误等问题;长上下文则通过增加模型上下文窗口大小,简化架构,适合静态数据集和全局推理,但面临计算浪费和注意力分散等挑战。文章指出,选择哪种技术取决于具体场景,并提出混合使用两种技术的 Self-Route 方案。未来,RAG 将进化为集检索、推理、验证于一体的知识运行层,
摘要 本文记录了作者裸辞转行AI大模型方向的完整经历,分为缘起、准备和面试三部分。转行动机源于对职业价值的追求和AI领域的潜力,导火索是DeepSeek的爆发。虽然裸辞,但做了充分准备:系统学习底层原理、完成落地项目、分享学习笔记,并做好经济、心态和环境准备。面试阶段分析了自身优劣势,最终获得多个offer。作者总结面试关键在于:深入理解原理、熟悉简历内容、保持良好心态、优化简历匹配度。文章最后指
•开源框架百花齐放:LLaMA-Factory 综合实力最强,Unsloth 快速实验首选•商业平台服务完善:SiliconCloud等提供一站式解决方案•技术路线趋于统一:LoRA/QLoRA 成为主流,多模态和量化训练成为标配•工具链日益完善:从数据处理到模型部署,全链路工具成熟2026年AI行业最大的机会,毫无疑问就在应用层!字节跳动已有7个团队全速布局Agent大模型岗位暴增69%,年薪破
MIT、清华等团队提出的激活感知权重量化(AWQ)技术,解决了大模型低位量化中的精度损失、泛化能力差和硬件适配难题。该方法通过分析激活值分布识别关键权重,采用逐通道缩放保护其精度,无需混合精度或重新训练,即实现INT3/INT4量化下模型性能接近FP16水平。实验显示,AWQ在主流大模型上显著优于传统方法,降低3倍以上推理延迟,并成功将700亿参数模型部署到移动端GPU。该技术已被vLLM等主流框
快速开发特种设备数字孪生应用平台,需要结合工业物联网(IIoT)、实时数据处理、3D可视化、边缘计算与云平台等关键技术。IoT平台:阿里云IoT、华为云IoT、ThingsBoard、EMQX + 自研适配器。规则引擎:用于告警、联动控制(如 Drools、Node-RED、Flink CEP)特种设备通常包括:压力容器、电梯、起重机械、锅炉、大型游乐设施、客运索道等。支持协议:Modbus、OP
AI项目始终围绕两个本质不同的阶段展开:训练(Training)与推理(Inference)。训练是数据科学家将标注数据输入模型、让其学习模式与规律的过程;推理则是模型在训练完成后,将这些规律应用到新数据上进行预测或生成结果。两者同等重要,但如果在系统设计中混淆,会直接带来预算失控、延迟问题以及用户体验下降。
摘要: 2026年AI产品经理将成为热门转行方向,因AI技术渗透各行业(如智能语音、自动驾驶),需求激增且薪资优势显著。该岗位需技术理解力与产品管理能力,分类包括机器学习、计算机视觉等方向。转行建议:系统学习AI基础知识(Python、机器学习等)、积累项目经验,并保持技术更新。大模型应用开发(如RAG、Agent、微调)是当前稀缺技能,企业高薪招聘相关人才。零基础者可参考分阶段学习路径,结合实战
摘要:本文探讨了如何低成本微调大语言模型,使其适应特定领域需求。文章比较了Prompt Engineering、RAG和微调三种方法,指出微调最适合风格定制、格式控制和领域专精场景。重点介绍了参数高效微调技术(PEFT),特别是LoRA和QLoRA方法,它们能以消费级显卡(如RTX 4060)实现接近全参数微调的效果,同时降低80%以上成本。最后强调AI应用开发工程师的核心竞争力在于掌握RAG、A
智能体(会用工具的AI) ↓RAG(会查资料的AI) ↓RAG 调优(查得准的AI) ↓Agentic RAG(自己决定怎么查的AI)每一步升级解决的都是真实场景里会碰到的问题。而且拆开看,这些技术的核心原理其实都不复杂——智能体就是"大模型 + 工具 + 循环",RAG 就是"搜索 + 大模型",Agentic RAG 就是把这俩拼一起。拼在一起之后,你就有了一个能理解问题、知道去哪找答案、找到
摘要:本文探讨了如何用消费级显卡低成本微调大语言模型,使其精通特定领域。文章对比了Prompt Engineering、RAG和微调三种方法的适用场景与成本,重点推荐LoRA/QLoRA等参数高效微调技术。微调适合输出格式定制、风格调整和领域知识内化,但不适合频繁更新的知识场景。当前AI行业对具备RAG、Agent和微调能力的人才需求旺盛,相关岗位薪资显著高于传统开发。文末提供大模型学习资源,包括
本文全面介绍了提示词工程(Prompt Engineering)的核心概念与技术方法,主要内容包括: 提示词工程定义:与大型语言模型有效交互的技术学科,包含四大核心要素(指令、上下文、输入数据、输出指示器) OpenAI官方六大核心策略: 写出清晰指令(包含详细信息、专家角色、分隔符、步骤说明) 提供参考文本(RAG思想) 任务分解 指定输出结构 使用最具体指令 系统测试变化 基础技巧: 零样本提
本文系统梳理了大模型技术的发展脉络和知识体系。首先回顾了人工智能从符号主义到深度学习的演进历程,重点分析了Transformer架构的革命性意义及其核心机制。随后详细阐述了大模型训练的三个关键阶段(预训练、微调、对齐)以及不同应用形态的分类。文章还介绍了Prompt Engineering和RAG等实用技术,最后探讨了智能体(Agent)技术的定义与发展方向。通过可视化图解方式,帮助读者构建从AI
OpenClaw 本质上是一个,它以本地部署为基础,通过常用的 IM 渠道实现无客户端交互,打通“自然语言输入 - 大语言模型理解 - 本地工具执行 - 运行结果反馈”的链路,解决 AI 处理实际问题时“能说不能做、隐私不可控、入口碎片化”等痛点。OpenClaw 的早期原型叫 WhatsAppRelay,是由 PSPDFKit 的创始人 Peter Steinberger 在 2025 年 11
OpenCode 是一个开源、基于终端的 AI 编码代理,使用 Go 语言构建,发布于麻省理工学院许可协议下。它提供了文本用户界面(TUI)——丰富的终端体验,包括面板、滚动和键盘导航——而非单纯的聊天界面。该项目在首年内就获得了95,000+颗GitHub星数,成为2025年增长最快的开发者工具之一。OpenCode 为你带来类似 Claude Code 的智能编码体验,无需 Anthropic
摘要:在使用阿里云魔搭(ModelScope)下载ChatGLM3模型时,部分用户遇到tokenizer.model文件仅132字节的问题。该问题通常是由于未正确认证或手动下载导致的错误页面(如403/404响应),而非真实模型文件。解决方案是使用官方modelscope SDK的snapshot_download方法,自动处理认证、协议同意及文件校验。关键注意事项包括:确保登录魔搭账号、同意模型
大语言模型量化技术
这是来自Facebook和Intel两个公司和几所大学在19年ICCV的论文“Habitat: A Platform for Embodied AI Research“,推出一个具身智能研究平台。
25年1月来自加拿大 SFU的论文“Semantic Mapping in Indoor Embodied AI – A Comprehensive Survey and Future Directions”。智能具身智体(例如机器人)需要在陌生的环境中执行复杂的语义任务。在智体需要具备的众多技能中,构建和维护环境的语义地图对于长期任务至关重要。语义地图以结构化的方式捕获有关环境的信息,允许智体在
语言模型
——语言模型
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net