logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

世界模型是什么:从 Sora 到 JEPA,看 AI 如何尝试“理解世界”

所谓世界模型,可以先把它理解成:AI 在内部建立的一套“世界运行规律”的表示。它不只是识别眼前看到了什么,更重要的是知道当前世界处在什么状态、接下来可能怎么变化,以及某个动作会带来什么后果。Yann LeCun 在 2022 年的《A Path Towards Autonomous Machine Intelligence》中把 world model 描述得很明确:它一方面要补全感知没有直接给出

#AI作画#AIGC
Temperature 和 Top-p 到底在调什么?从大模型生成原理讲清楚这两个参数

很多人第一次注意到 temperature 和 top-p,并不是在论文里,而是在产品界面里。比如在 Google AI Studio 的 Run settings 面板中,就可以直接调整 model parameters;如果你改用 Gemini API,也会在里看到topP这样的字段。也就是说,这两个参数不是学术讨论里的边角料,而是今天实际调用大模型时就摆在开发者面前的“生成控制旋钮”。问题也

#AIGC
机器学习算法与实践

从数据中学习模型的过程,叫做学习,也叫做训练;训练过程中使用的数据,叫训练数据;训练数据中的每一个样本,叫做训练样本;训练样本组成的集合,叫做训练集合;学得的模型对应了关于数据的某种潜在规律,叫做假设g;潜在规律自身,叫做真相或真实f。监督学习是利用带有标签的数据,通过学习输入->输出(标签)的映射关系,来建模数据规律的方法。(分类任务:预测结果是离散的;回归任务:预测结果是连续的)非监督学习是在

#机器学习#算法#人工智能
Temperature 和 Top-p 到底在调什么?从大模型生成原理讲清楚这两个参数

很多人第一次注意到 temperature 和 top-p,并不是在论文里,而是在产品界面里。比如在 Google AI Studio 的 Run settings 面板中,就可以直接调整 model parameters;如果你改用 Gemini API,也会在里看到topP这样的字段。也就是说,这两个参数不是学术讨论里的边角料,而是今天实际调用大模型时就摆在开发者面前的“生成控制旋钮”。问题也

#AIGC
MoE 模型:让大模型学会分工合作

这几年,大模型的发展一直在追求一件事:让模型更强。最直接的办法当然是扩大参数量,因为参数越多,模型能容纳的知识和模式通常也就越多。但问题也很现实,参数变大之后,训练成本会更高,推理也会更贵。尤其在用户真正使用模型时,如果每次回答一个问题都要完整调用整个超大模型,那这种代价很快就会变得难以承受。所以,大模型很快遇到了一个核心矛盾:我们想要更大的模型容量,但又不希望每次计算都把所有参数全部用上。

#人工智能#深度学习#机器学习 +1
世界模型是什么:从 Sora 到 JEPA,看 AI 如何尝试“理解世界”

所谓世界模型,可以先把它理解成:AI 在内部建立的一套“世界运行规律”的表示。它不只是识别眼前看到了什么,更重要的是知道当前世界处在什么状态、接下来可能怎么变化,以及某个动作会带来什么后果。Yann LeCun 在 2022 年的《A Path Towards Autonomous Machine Intelligence》中把 world model 描述得很明确:它一方面要补全感知没有直接给出

#AI作画#AIGC
马斯克点赞的 Attention Residuals:Kimi 如何重写 Transformer 的残差连接

在讲大语言模型时,大家最熟悉的 usually 是 attention(注意力机制)。它决定当前 token 该看前面哪些 token。。论文的判断很直接:今天的大模型在序列维度上已经学会了“选择性关注”,但在深度维度上,很多模型还在沿用一种相当机械的做法——前面所有层的输出一股脑往后累加。作者认为,这种做法在模型越来越深时,会带来信息稀释和状态膨胀的问题,于是他们提出了 Attention Re

#人工智能#机器学习#算法
DeepSeek-OCR 2:给人工智能更像人类的眼睛

这篇论文的核心创新,是一个叫做 DeepEncoder V2 的新编码器。按照论文的说法,它的目标不是简单提取视觉特征,而是能够根据图像语义动态重排视觉 token。作者认为,传统方法把视觉 token 固定成栅格扫描顺序,其实给模型加入了一种并不合理的先验;对于复杂版式图片,这种顺序和人类真正的观察方式并不一致。

#人工智能#计算机视觉#深度学习
DeepSeek-OCR 2:给人工智能更像人类的眼睛

这篇论文的核心创新,是一个叫做 DeepEncoder V2 的新编码器。按照论文的说法,它的目标不是简单提取视觉特征,而是能够根据图像语义动态重排视觉 token。作者认为,传统方法把视觉 token 固定成栅格扫描顺序,其实给模型加入了一种并不合理的先验;对于复杂版式图片,这种顺序和人类真正的观察方式并不一致。

#人工智能#计算机视觉#深度学习
从吐槽到规则:Karpathy 如何给 AI 编程立规矩

最近有个很有代表性的项目火了。它的名字叫,作者是 forrestchang。这个项目最有意思的地方,不在于它写了多少代码,而在于它几乎没有“发明新技术”,只是把 Andrej Karpathy 对 AI 编程助手失败模式的吐槽,整理成了一套可以直接执行的行为规则,最后收敛成一个很短的CLAUDE.md文件。结果就是,这个仓库迅速在 GitHub 上积累到接近 29k stars,且这个数字还在升高

#人工智能
    共 15 条
  • 1
  • 2
  • 请选择