登录社区云,与社区用户共同成长
邀请您加入社区
大模型微调是在预训练模型基础上,通过特定任务数据调整参数使其适应下游任务,包括全参数微调和参数高效微调。监督式微调(SFT)利用标注数据,通过交叉熵损失反向传播更新参数,需注意数据质量、学习率策略和早停机制。参数高效微调方法主要有Adapter(插入小型全连接网络)、Prefix Tuning(添加可训练前缀向量)和LoRA(低秩矩阵分解)。全参数微调更新全部参数,适配能力强但计算成本高;部分微调
本文为有Python基础的工程师提供大模型入门教程,涵盖角色定位、Transformer原理、PyTorch实战训练迷你模型、HuggingFace工具应用及分阶段学习路径,通过从简到繁的实战项目帮助读者逐步掌握大模型开发技能,最终实现模型微调和部署应用。
大模型的出现激发出了不少新兴岗位,也让越来越多岗位备受人关注。数据标注这个岗位就是其中之一。想了解更多有关数据标注、大模型标注的同学,或许可以看看这篇文章。2022年底,ChatGPT引爆大语言模型,全球科技巨头纷纷入局,后来各家不仅限于自然语言技术,更是将文生图、文生音频、文生视频、图生视频等多模态技术“玩”出了新高度,近期大模型生成的兵马俑,还跳起了“科目三”的热舞。
零基础也能懂!单 Agent+MCP vs 多 Agent 架构:案例 + 部署 + 未来方向
大语言模型时代下,腾讯Serverless AI运行时如何破解AI Agent落地难题?
这项研究开发了AI系统检测医学教材中的不当用语(IUL),发现专门微调的小型语言模型在医疗文本分析中表现优于大型语言模型。研究使用BRICC数据集和多层次分类系统,识别出六大类IUL问题,包括性别误用、排他性语言等。小模型通过领域适配能更好捕捉医学文本中的细微语言差异,挑战了"越大越好"的AI范式,为医疗AI公平性研究提供了新方向。
文章探讨了大型语言模型推理能力的本质与争议,介绍了《The Illusion of Thinking》及其反驳论文的核心观点,分析了推理模型在不同复杂度问题上的表现与局限性。文章对比了人类推理能力与大模型推理的异同,探讨了通用人工智能推理能力的可能形态,指出当前关于推理能力的学术争论将推动人工智能向通用人工智能方向发展。
本文系统介绍了七种主流大语言模型类型及其特点:基座模型提供通用语言能力;指令模型擅长执行特定任务;对话模型优化多轮交互;推理模型具备逻辑分析能力;Agent模型支持自主决策和工具调用;领域模型专精特定行业知识;蒸馏模型实现轻量化部署。文章还提供了各类模型的选择指南,帮助开发者根据应用场景和需求选择适合的模型类型。
本文深入解析混合专家(MoE)架构的核心原理,提供从零构建MoEGPT模型的完整指南。详细介绍了MoE架构的优势、实现方法、训练策略、推理优化及实际应用,并探讨未来发展方向。MoE架构通过稀疏激活大幅降低计算需求,使资源有限的开发者也能训练和使用超大规模模型,是当前大模型发展的重要趋势。
沙丘智库汇总了大模型建设规划、技术实现路径、应用现状、市场格局及风险管理等内容。文章解答了企业如何制定大模型落地规划、构建AI新基建、选择建设路径、开发RAG系统和AI Agent,以及各行业大模型应用成熟度、渗透情况和典型案例,并提供了风险应对和员工培训建议,为企业全面了解和应用大模型提供实用指南。大模型的全称是大规模预训练模型,是指参数规模超过十亿级别的“预训练深度神经网络模型”,基于“大数据
阿里已从电商公司成功转型为AI大模型公司,其通义千问模型成为HuggingFace上最热开源模型。凭借自研平头哥芯片和阿里云基础设施,阿里实现了从芯片到模型的垂直整合,快速推出多行业适配模型,形成完整AI生态。这种全栈自研能力使阿里在AI领域领先于其他互联网公司,成为中国的OpenAI+英伟达,未来有望在AI产业链中占据重要地位。
如果你把这 5 个开源项目玩明白了,那么AI大模型就算是入门了,后面可做的事就非常多了!是开发者,建议先从入手快速体验;如果想做更复杂的企业级应用,可以结合;而需要业务流程控制的企业客服,Rasa才是最佳选择。在我看来,这些项目的共同点是降低了AI应用落地的门槛。不管你是学生、个人开发者,还是企业团队,都能玩出自己的方案。
在准备大模型的面试时,我们需要对模型的基础理论、进阶应用、微调策略、以及特定技术如LangChain、参数高效微调(PEFT)等有深入的理解。
作为一名软件工程师,我们应该活到老学到老,时刻与不断发展的框架、标准和范式保持同步。同时,还要能活学活用,在工作中使用最合适的工具,以提高工作效率。随着机器学习在越来越多的应用程序中寻得了一席之地,越来越多的程序员加入 AI 领域,那么,入行 AI 领域需要哪些技能呢?
【摘要】计算机视觉成为AI领域竞争最激烈的方向,企业高薪抢人,平均月薪达27K,但薪资分化明显。为帮助求职者系统掌握核心技术,唐宇迪团队推出第13期《人工智能深度学习涨薪就业班》,课程对标大厂P7+要求,涵盖YoLov12/v13、多模态等前沿技术,提供450+课时、200+实战案例及就业服务。课程面向在职转型和应届求职群体,承诺三年免费更新,限时3人特惠,助力实现年薪40-60W+目标。(149
xAI推出的Grok-4-Fast是Grok-4的成本优化版本,采用统一架构将推理与非推理行为合并,拥有2M-token上下文窗口。该模型在保持相近性能的同时减少40%的"思考"令牌,实现98%的成本降低。支持原生工具使用,已在多个平台免费提供,API定价合理,适合高吞吐量搜索、编码和问答场景,是AI开发者的实用工具。
文章探讨了AI是否真正在思考的问题,指出AI目前只是基于统计学习的条件概率预测工具,能高效完成任务但不具备真正的理解、意向性和长期目标管理能力。文章从认知科学角度分析了AI与人类思考的差异,讨论了AI在教育、创作、工作流中的应用价值,并提出了与AI协作的三大原则:明确信任边界、保留人类判断、过程可追溯。核心观点是应关注AI在具体任务中的应用价值,而非纠结它是否真的在思考。
AI 大模型技术经过2023年的狂飙,2024年必将迎来应用的落地,对 IT 同学来讲,这里蕴含着大量的技术机会,越来越多的企业开始招聘 AI 大模型岗位。本文梳理了 AI 大模型开发技术的面试之道,从 AI 大模型基础面、AI 大模型进阶面、LangChain 开发框架面、向量数据库面等不同知识维度,试图找到一个共同的面试速成模式,希望对 IT 同学有所助益。
【建议收藏】AI Agent到大模型:掌握这16个核心术语,轻松入门大模型技术
本文分析了大语言模型产生"幻觉"的两大根源:预训练阶段的统计问题和后训练阶段的评估机制缺陷。作者提出针对性解决方案:预训练阶段让模型学会"不知道"并提升数据多样性;后训练阶段改进奖励机制和评估方式;同时采用一致性检测、不确定性建模等方法辅助。文章还提供学术写作场景的具体提示词示例,帮助研究人员有效降低AI幻觉率,提高学术写作质量。
文章介绍了大模型Agent的定义与分级体系,从简单处理器到多Agent系统。重点阐述了多步Agent基于ReAct框架的实现原理,即通过"推理-行动"循环,结合提示词与代码工程,让大模型逐步解决问题。文章通过dify平台的实例展示了Agent的实际工作流程,并提供了源码解析,帮助读者理解Agent如何通过循环调用工具来解决复杂任务。
保姆级教程|AI 大模型 MCP 是什么?程序员如何从零敲出第一个实战项目?
大模型入门不踩坑!一文吃透 AI 黑话,这篇收藏级指南够用了
右侧为经典Transformer架构,数据流向如下:输入序列首先通过转换为向量表示加入以保留序列中的位置信息向量流经编码器的N个层解码器接收移位的输出序列的和解码器处理编码器的输出并生成预测最后通过层和转换为概率分布。
Transformer在2017年由Google团队提出,彻底改变了自然语言处理领域的格局。其革命性在于完全基于注意力机制,摒弃了传统的RNN和CNN结构,解决了序列建模中的并行化、长程依赖等核心问题。相比传统模型,Transformer具有显著优势:在WMT翻译任务上取得突破性成绩,训练效率大幅提升(8个GPU仅需3.5天)。该架构通过自注意力机制实现了高度并行化计算、动态评估序列关系、保留完整
本文提出了一种创新的自上而下视觉指令预训练框架ViTP,通过利用视觉语言模型(VLM)的推理能力反向指导视觉编码器的特征学习。与传统的自监督或对比学习方法不同,ViTP将ViT嵌入多模态大模型,通过特定领域指令任务迫使ViT学习具有辨识度的深层特征。核心创新包括:1)设计视觉鲁棒性学习(VRL),随机丢弃75%视觉token以提高特征信息密度;实验表明,ViTP在遥感和医疗领域的16个数据集上均取
同时课程详细介绍了。
为促进中医药大模型普及应用,针对行业存在的共性问题,提出如下建议。**推进中医药知识体系现代化进程。**利用大数据、人工智能等新一代信息技术,加强名老中医学术经验、老药工传统技艺、经典药方分析等活态传承。建立中医药实用的标准体系,统一中医不同地方派系名词术语标准、道地药材采集标准、传统炮制过程标准等,为中医药大模型训练所需的海量结构化数据收集提供标准环境。**优化中医药相关数据可信流通过程。
通过这次全面的对比测试,我发现每个模型都有自己的特色和优势。DeepSeek在数学推理和代码生成方面表现突出,Qwen3在多模态能力和企业服务方面有着不错的表现。而文心一言在这次测试中给我留下了深刻印象,特别是在语言理解的细致度、逻辑推理的严谨性,以及专业领域知识的全面性方面都表现得相当出色。无论是情感分析的准确性,还是医学、法律等专业领域问答的深度和实用性,都展现出了不错的水准。当然,AI技术发
本文概述 RAG 的核心算法,并举例说明其中的一些方法。RAG融合是一个强大的功能,能够提高RAG应用的语义搜索效率。通过使用语言模型生成多个查询并对搜索结果进行重新排序,RAG融合可以呈现更丰富多样的内容,并提供了一个额外的层次,用于调整应用。此外,RAG融合还可以实现自动纠正、节省成本以及增加内容多样性。但是,需要注意一些权衡,比如潜在的延迟问题、自动纠正的挑战以及成本影响。对于依赖常见概念但
OpenAI团队提出GDPval基准,旨在前瞻性评估AI模型在真实经济任务中的能力。该基准涵盖美国9大GDP贡献行业的44个职业,包含1320个由资深专家设计的真实任务。研究发现,前沿模型(如Claude Opus4.1)在近48%的任务中表现达到或超越人类专家水平,且性能随时间线性提升。研究还验证了增加推理努力、任务上下文和引导能有效提升模型表现。该工作为量化AI的经济价值提供了新框架,并开源了
SGLang是专为复杂生成任务设计的大模型推理框架,通过RadixAttention实现跨请求细粒度KV Cache复用,并引入压缩有限状态机支持结构化输出约束。相比传统框架,SGLang在AI Agent、RAG等场景下显著降低冗余计算,提升推理吞吐量和响应速度,同时保证输出符合正则表达式、JSON Schema等格式要求。
小白也能懂的大模型原理:GPT实现到Transformer架构全解析(建议收藏学习)
文章解释了大模型训练中SFT和RLHF的区别与必要性。SFT教会模型"能做什么",通过模仿人类范例获取基础知识,但存在成本高、覆盖面有限等局限。RLHF则教会模型"应该做什么",通过人类反馈训练奖励模型,指导生成更符合人类期望的回答,解决了SFT的局限性,实现了目标对齐。SFT是基础,RLHF是真正的内核。
AI术语小白课(四):Transformer、注意力机制、多层神经网络——GPT大脑是怎么长成的?大模型入门到精通,收藏这篇就足够了!
最近很多同学来问:“想找工作,做些什么能提高自己的竞争力?”LLM Agents是当前AI领域热门前沿的研究方向之一,薪资非常吸引人,某公司已经开出月薪75k的高薪招聘大模型Agent人才。
保姆级教学,深度理解GPT的结构以及实践,一天学会如何使用GPT,为后面融合强化学习做个前置教学。
公司有成千上万份技术文档、培训资料,员工找个信息要翻半天?传统搜索只能找到文件名,找不到答案?今天教你用Dify打造一个企业专属的"知识大脑"!基于RAG技术,让几万份文档瞬间变成智能助手,员工提问秒得答案,知识管理从此告别"大海捞针"
迁移学习(Transfer Learning)是一种机器学习方法,旨在将一个领域或任务中学到的知识迁移到另一个相关领域或任务中,以提高新任务的学习效果或效率。它的主要思想是避免从头开始训练模型,特别是在目标任务上数据有限的情况下,利用预训练模型在相关任务上学到的特征、模式或参数进行微调或适应。
Dify是一款零代码AI开发工具,用户通过拖拽即可构建智能应用,支持20多种AI模型。全球500万+开发者使用,150+国家覆盖,GitHub 115k星标。采用开源免费+专业付费模式,企业年费9.9万起。背后公司苏州语灵科技3年估值超10亿,获得阿里云投资,海外收入占35%。其低代码能力与阿里云算力结合,使企业AI部署成本降低40%。
基于迁移学习的旋转机械故障诊断方法研究学习笔记现在大一点的神经网络模型也要求数据量的足够大,但是对于小样本的数据,有一些神经网络模型也能够处理的很好2.这是现在神经网络也要求的数据最好能够独立同分布,所以最好在数据output时对数据进行BN或者其他方法的数据处理3.这可能是传统机器学习方法的不足,可以通过现在的神经网络的方法弥补4.我看裴师兄的文章,他进行对比的网络模型好像都没有使用transf
transformer
——transformer
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net