logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型学习与面试第六期:大模型知识进阶

这里主要是做一些知识的补充,所以主要是提问与问题的讲解。

文章图片
#学习#人工智能#自然语言处理 +4
具身智能1.1:什么是具身?为什么大模型没有身体就无法拥有完整的智能?

当我们谈论人工智能时,我们往往过度沉迷于“大脑”的算力与参数,却忽略了容纳这个大脑的“容器”。在这一节,我们要明白:仅凭语言模型(LLM),哪怕参数量再大,也无法触及“完整的智能”。

文章图片
#人工智能#深度学习#机器学习 +1
论文精读:拆解顶会论文 COLA:当大模型玩起角色扮演与对抗博弈,Agent 工作流的威力有多大?

本篇文章将用最通俗易懂的大白话,带你硬核拆解这篇让人拍案叫绝的论文。我们将看到,作者如何仅仅通过精妙的 Prompt(提示词)工程,就搭建出了一个由“领域专家”、“正反方辩手”和“最高法官”组成的 AI 专家辩论团(COLA 框架),并且在“零样本”考试中吊打了那些靠死记硬背训练出来的传统模型。

文章图片
#人工智能#深度学习#神经网络 +2
开年王炸?马斯克都盛赞的 Kimi 架构级创新《Attention Residuals》深度解读

今天我们来讲解Kimi(月之暗面)在 2026 年 3 月刚刚发布的这篇论文《Attention Residuals》。大模型越来越深,但越来越笨?罪魁祸首竟是沿用了十年的残差连接!今天带你拆解 Kimi 最新神作《Attention Residuals》,看中国 AI 团队如何用一次华丽的“工程降维打击”,解决困扰大模型圈已久的 PreNorm 稀释危机。

文章图片
#人工智能#深度学习#计算机视觉 +4
开年王炸?马斯克都盛赞的 Kimi 架构级创新《Attention Residuals》深度解读

今天我们来讲解Kimi(月之暗面)在 2026 年 3 月刚刚发布的这篇论文《Attention Residuals》。大模型越来越深,但越来越笨?罪魁祸首竟是沿用了十年的残差连接!今天带你拆解 Kimi 最新神作《Attention Residuals》,看中国 AI 团队如何用一次华丽的“工程降维打击”,解决困扰大模型圈已久的 PreNorm 稀释危机。

文章图片
#人工智能#深度学习#计算机视觉 +4
深入讲解Transformer架构(详细图解)——大模型学习精讲第五期:Transformer

在前面的第4期,我们已经深入探讨了 Transformer 的自注意力机制(Self-Attention)。但一个独立的机制无法构成完整的生命体。在这一章,我们将视野拉高,看看 Transformer 是如何将注意力机制、前馈神经网络等组件拼接在一起,形成一个能够完成翻译、问答和文本生成的端到端系统的。

文章图片
#学习#transformer#深度学习 +4
大规模并发处理器程序设计(PMPP)讲解(CUDA架构):第四期:计算架构与调度

在前面的章节中,我们已经掌握了如何使用 CUDA 编程模型来表达并行性。我们习惯了将一个庞大的计算任务划分为一个线程网格 (Grid),并将网格进一步细分为多个线程块 (Block),每个块中包含数百个并发执行的线程 (Thread)。这种以数据为中心的软件抽象非常优雅,它让程序员可以摆脱底层硬件的繁文缛节,专注于算法的逻辑。然而,软件模型只是一个“美好的蓝图”。当我们调用内核函数(Kernel

文章图片
#架构#c语言#算法 +1
超长文预警!大模型面试与深入第四期:关于Attention的一切一次性全部讲清

先大概回顾一下注意力机制的原理,然后深入讲解注意力机制的各方面内容,注意力机制的使命就是将Token的维度重新映射,获得更准确更丰富的语义。最后我们再提问,相信大家看完前面的讲解,对后面的问题会游刃有余。

文章图片
#人工智能#深度学习#机器学习 +3
    共 74 条
  • 1
  • 2
  • 3
  • 8
  • 请选择