登录社区云,与社区用户共同成长
邀请您加入社区
摘要: Llama系列虽于2023年正式诞生,但其开源高效理念可追溯至2015年。十年间,Llama从无到有,发展为全球开源大模型标杆,推动中国从跟随者到领跑者(如DeepSeek、GLM等)。参数规模从7B跃至万亿级,零样本泛化率从80%升至99%,实现从学术工具到普惠智能的跨越。2015-2022年为开源预训练萌芽期;2023年Llama开源引爆中文社区;2024-2025年迈向多模态与量子鲁
摘要: 2015-2025年,NVIDIA的Megatron从内部分布式训练原型发展为支持十万亿参数、量子加速的全球AI训练框架。2018年开源后,中国厂商(华为、百度等)快速跟进,推动3D并行、MoE混合专家等技术创新,训练效率提升千倍。2025年,Megatron-Quantum支持自进化优化,中国在量子级训练领域领跑,全球70%大模型依赖该框架,实现从“千亿慢训”到“十万亿实时进化”的跨越,
摘要: Transformer从2015年的学术概念发展为2025年十万亿级多模态智能系统,实现从序列建模到全域意图理解的跃迁。2017年提出自注意力机制,2018年BERT/GPT开启预训练革命;2019-2022年千亿级MoE扩展推动少样本学习;2023年后多模态VLA统一架构(如GPT-4V、DeepSeek-VL)实现跨模态实时交互。中国厂商(华为、阿里、百度等)引领万亿参数训练与场景落地
完整实现建议参考OpenNMT-py或Fairseq等开源框架,这些系统已包含上述核心组件的优化实现。实现集束搜索(beam_size=4-8)和长度惩罚(length_penalty=0.6)。实现动态批处理和内存池优化,提升服务吞吐量。添加标签平滑正则化(label smoothing=0.1)和梯度裁剪(norm=5.0)防止过拟合。对于中文输出需进行字级别BLEU计算,建议使用SacreB
✅易于扩展:添加新层或替换子模块无需重写框架✅高效并行:各模块可独立计算(尤其是 Attention 和 FFN)✅支持创新:如 MoE、FlashAttention、稀疏注意力等可无缝集成✅利于部署:模块可单独量化、剪枝、蒸馏“分而治之,合而用之”—— 将复杂模型拆解为功能单一、接口统一、高度复用的模块,再通过堆叠与组合构建强大系统。这种设计不仅推动了大模型的发展,也为 AI 架构演进提供了范式
文章解析了AI技术从RAG到AI记忆的演进历程,展示了AI如何从静态工具转变为具备长期记忆和持续学习能力的自适应伙伴。同时详细介绍了AI工程师必备的8项核心技能,包括提示词工程、上下文工程、模型微调等,为构建高效AI应用提供了全面技术指导。
本文分享前沿知识、实战经验和岗位机会。无论你是刚入门的小白还是寻求进阶的学习者,都能在这里找到系统性学习资源,实现从理论到实践的全面提升。
《大模型知识手册:从入门到精通的系统学习指南》 这份大模型知识手册采用四阶递进式结构,帮助学习者系统掌握核心技术: 基础篇涵盖CNN、Transformer等核心模型原理 优化篇详解LoRA微调等关键技术 分布式篇解析多机训练方法 实战篇聚焦工业级微调应用 手册特色: 难度梯度合理(1-4星) 理论与实践结合 包含代码示例与案例 覆盖训练到部署全流程 适合希望系统学习大模型技术的开发者,配套提供A
这不是你的问题,这是整个行业的问题。当前的AI学习路径出现了严重的断层——市面上95%的教程都在教你怎么调用API、怎么用Ollama部署模型、怎么用LangChain快速上线应用。给它一句话"猫坐在____上",模型猜"垫子",然后对照原文发现答案是"垫子",于是它知道自己猜对了。人类阅读时,会自然地给不同信息分配不同的"注意力权重"——重要的记住,不重要的忽略。当你在这个空间里做"king -
图源:https://medium.com/@joaolages/kv-caching-explained-276520203249。解码器得到下一个token后,将该token拼接之前的token输入解码器,第。步的加权值向量,那么无须重复计算,只需要计算最后一行即可,也就是计算。步的加权值矩阵一致,如果保存了前。的内积,得到权重后对所有。
文章介绍大模型两个核心参数(messages和tools)及其应用范式(RAG和ReAct),通过翻译和计算器案例展示三种实用方法:提示词调优、增加调用次数和模型微调。强调大模型使用门槛低,但并非万能,需结合具体业务场景合理使用,业办能力和拟人化是成功应用的关键。
《动手学大模型智能体》是由上海交大"动手学"团队编写的Agent实战教程,配套资源完善,内容体系化分为四大部分,从基础到前沿全覆盖。每章配有可运行的Jupyter Notebook,实战导向,学完就能用,是2025年AI Agent爆发年的必备学习资源,适合开发者、师生及产品经理等人群。
深夜,看着GitHub Copilot流畅地补全一行行代码,许多Java程序员陷入了共同的焦虑:我们的经验在AI时代是否即将过时?答案恰恰相反。AI技术的重心正从“算法炼丹”全面转向“工业化落地”,而Java开发者所拥有的严谨的工程化思维、系统架构能力和高并发处理经验,正是这个新阶段最稀缺的黄金资源。与其焦虑,不如转型。本文为你梳理出一条清晰的实战路径,将你的“工程化优势”转化为AI时代的“高维竞
谷歌DeepMind提出嵌套学习框架,借鉴人类联想记忆解决AI"灾难性遗忘"问题。该框架使优化器与架构互为上下文、协同进化,通过不同更新频率的嵌套系统设计,让AI能将短期经验转化为长期知识。实验表明,该技术在持续学习和长上下文处理方面显著超越现有模型,被视作Transformer之后的重要突破,可能真正开启AGI时代。
Cursor提出AI Agent应从"静态上下文"转向"动态上下文发现",将信息外置到文件系统实现按需获取。通过优化工具调用返回内容、处理长对话历史、按需加载Agent Skills等技巧,减少token消耗并降低信息丢失风险。这种"可恢复压缩"方式反映了AI Agent领域的重要转向:从"怎么塞更多"转向"怎么让模型更聪明地取需",提升系统效率和可靠性。
普林斯顿大学研究通过百万条数据分析发现,大语言模型的"顿悟时刻"实为统计学幻觉,自发纠错罕见且常导致准确率下降。研究提出形式化"Aha!"时刻定义框架,证实模型在高度不确定(高熵)时缺乏自发反思能力。但实验显示,当监测到模型高熵状态时强制其重新思考,准确率可提升8%,揭示了当前推理模型缺乏元认知内驱力机制,为提升模型性能提供了新思路。
大语言模型基于Transformer架构和注意力机制,通过预训练和微调两个阶段进行训练。面临计算资源、偏见和缩放定律等挑战,需采用优化算法和分布式训练技术提高效率。LLM在自然语言处理、代码生成和创意内容等领域有广泛应用,是当前AI发展的核心技术。
本文剖析了AI创业公司Manus从创立到被Meta收购的全过程,肯定了其在通用Agent领域的技术创新,如Wide Research和Slack连接器等技术突破,但批评了其饥饿营销、摇摆不定、假意开源等商业行为。作者认为,Manus的收购并非产品成功,而是财务压力和大厂竞争下的必然结果,警示大模型创业者需平衡技术创新与商业伦理。
AI进化史:从单细胞到超级个体的成长之路 摘要: AI的发展经历了五个关键阶段:1)单细胞阶段(基于规则的简单逻辑);2)神经元阶段(神经网络初步连接);3)大脑阶段(Transformer架构突破算力限制,形成大语言模型);4)教育阶段(通过预训练、微调和强化学习培养专业能力与价值观);5)超级个体阶段(装备工具与知识库,成为可执行复杂任务的智能体)。这一进化过程展现了AI如何从机械执行逐步发展
本文全面介绍大模型基础知识,包括大语言模型(LLM)的定义、架构与核心能力,视觉基础模型的主流架构与应用,语音大模型的多任务处理能力,多模态大模型(MLLM)的跨模态处理技术,以及推理大模型的能力增强方法。文章详细解析了GPT系列、Llama系列、Qwen系列等代表性工作,为读者提供从基础概念到实际应用的完整技术路径,帮助系统理解大模型技术体系。
文章分析了AI对前端开发的影响,指出前端因业务逻辑简单和开源语料丰富而面临较大冲击。AI在前端开发中主要提升业务逻辑编码环节效率,整体提效约20%-30%。文章强调前端开发者转型AI具有优势,应主动获取业务KnowHow,将提示词视为"代码"开发,成为新时代业务SOP的构建者。AI完全替代前端为时尚早,但前端需向前迈半步,成为半个产品专家,才能在AI时代不被淘汰。
AI Agent与Task Bot的技术断层与未来方向 当前AI Agent体验不佳的根本原因在于我们正处于技术断层期。相比10年前基于规则的任务型机器人(Task Bot)在单一任务上的高效稳定,现代AI Agent基于概率推理系统,执行速度慢且规划质量差。然而,AI Agent的核心创新在于处理未知任务和模糊指令的能力,实现了控制流的动态生成。 未来的发展方向在于Agentic Workflo
1月9日,A股市场持续火爆,沪指时隔十年重新登上4100点。商业航天、可控核聚变、有色金属、机器人等热点板块延续强势;AI应用概念板块领涨全市。传媒股纷纷大涨午后,A股市场,AI应用端侧的概念股更是全面爆发。东方财富数据显示,多个涉及Kimi、Sora、快手、AI语料、短剧互动游戏、智谱AI、AI智能体等AI应用端侧的概念股大涨,尤其是传媒股表现亮眼。成份股中,截至当日收盘,易点天下“20CM”涨
借鉴人类联想记忆,嵌套学习让AI在运行中构建抽象结构,超越Transformer的局限。谷歌团队强调:优化器与架构互为上下文,协同进化才能实现真正持续学习。这篇论文或成经典,开启AI从被动训练到主动进化的大门。「灾难性遗忘」,一个困扰了AI界几十年的幽灵,这一次或许被彻底解决了。过去一年,AI突飞猛进,绝非夸张的修辞,仅谷歌DeepMind一年的成就,就让人眼花缭乱:但如果DeepMind要选20
本文系统介绍大模型核心技术,涵盖Transformer架构与混合专家模型,五大微调技术策略,传统RAG与Agentic RAG、HyDE、Graph RAG等变体对比,文本分块方法,智能体系统等级划分,以及KV缓存优化技术。内容全面覆盖大模型开发与应用的关键环节,为读者提供从理论到实践的完整技术指导。
AI 画图不是魔法,但用好了真能让你少加点班。提示词背熟、参数调稳、脚本整活老板需求再变态,也能五分钟内甩图。显卡电费别心疼绩效涨了、头发保住了这波不亏。今晚就把 WebUI 装起来,明早群里晒图,卷死同事。冲!
本文系统解析了Transformer注意力机制从MHA到MQA再到GQA的演进路径,重点介绍了GQA在LLaMA-2-70B模型上的工程实现。通过分组共享KV头的设计,GQA在保持模型性能的同时显著降低了显存占用(73%减少)和提升推理速度(2.8倍加速)。文章详细阐述了模型改造方法、量化感知训练技术以及生产部署方案,并提供了完整的代码实现和性能对比数据。实验表明,GQA+INT8量化组合使70B
本文提出了一套针对工业级AIGC应用的扩散模型优化方案,通过LCM蒸馏、INT8量化和动态分辨率调度三大核心技术,在RTX4090上实现512×512图像12ms生成,显存占用降低65%。该方案成功应用于电商广告平台,日均生成500万张创意图,将单图成本从15元降至0.03元,素材合格率提升至89%。
文章详细介绍了大模型指令微调(SFT)技术,包括指令数据构建方法(从现有NLP任务、对话数据和合成数据获取)、训练策略与预训练的区别、参数高效微调方法(特别是LoRA技术),以及商业化应用场景。同时提供了实战框架推荐、实验追踪工具和缓解过拟合的技术方案,如标签平滑、知识蒸馏和课程学习等,帮助开发者有效提升模型性能并降低算力需求。
AI 大模型,即人工智能大模型,是 “大数据 + 大算力 + 强算法” 结合的产物 。它通过在大规模数据上进行训练,拥有海量参数(通常在十亿个以上),具备高度的通用性和泛化能力。打个比方,传统的小模型像是一个只储备了某一学科知识的学生,只能解决特定类型的问题;而大模型则像是一个知识渊博、博闻强识的学者,对各种领域的知识都有涉猎,能够应对自然语言处理、图像识别、语音识别等广泛领域的复杂任务 。
来源:央视新闻,仅用于学术分享。阿里研究院,赞487Datawhale 整理了采访全文,供大家阅读。主持人:作为政协委员,今年您的提案里面会侧重于什么问题?王坚院士:我想我们今天讲的这个技术变革也好,特别是讲到人工智能也好,确实是一个时代的变革,是一个百年未遇的科技变革的时候。所以我今天比较关心的是人工智能+,我们怎么能有一些机制上的创新。王坚,全国政协委员,中国工程院院士,阿里云创始人。作为云计
解决方案:git clone https://github.com/NVIDIA/apexcd apexpython setup.py install在使用python setup.py install 的过程中会报错, 错误截图解决方案:需要在命令行执行 export TORCH_CUDA_ARCH_LIST="6.0" 随便一下计算力值输入即可.然后在执行python setup.py ins
深夜的算法工位上,林深盯着训练集群的监控屏叹气——他负责的千亿参数Transformer模型,训练1轮要烧掉20万美元,推理延迟卡在400ms以上,根本没法落地做实时教育辅导。而隔壁组刚上线的MoE模型,用相近的算力跑出了1.2万亿“有效参数”,响应速度却压到了120ms,连demo都被教育客户抢着要测试。这不是某家公司的特例,而是2025年大模型研发的集体转向。从2017年Transformer
transformer
——transformer
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net