logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型Agent的 “USB”接口!| 一文详细了解MCP(模型上下文协议)

之前的时候,让大模型做外部工具调用基本上都是通过Function Calling的方式,最近随着大模型Agent工作流的兴起,有一个新的概念:MCP逐渐进入大家的视野,基于MCP,它可以让非开发人员在不需要编辑Agent逻辑的情况下,为代理添加工具。

文章图片
#MCP
大模型Agent | 构建智能体 AI-Agent的 5大挑战,及解决方案!

大模型Agent | 构建AI-Agent的 5大挑战,及解决方案!

文章图片
#人工智能
颠覆大模型归一化!Meta | 提出动态Tanh:DyT,无归一化的 Transformer 性能更强

今天Meta的这篇文章突破归一化层不可或缺传统观点,具体来说:提出了一种名为动态Tanh(DyT)的简单技术,用于替代Transformer中的归一化层,实验表明,使用DyT的无归一化Transformer在多种任务和领域中均能达到或超过传统归一化模型的性能,且大多无需超参数调整。

文章图片
#transformer#深度学习#人工智能
DeepSeek | DeepSeek-V3新版本模型:DeepSeek-V3-0324,数学推理显著提升

DeepSeek-V3模型升级:DeepSeek-V3-0324,数学推理显著提升

文章图片
#人工智能#DeepSeek
震撼!昆仑万维 | 发布全球首款无限时长电影生成模型:Skyreels-V2,可在线体验!

刚刚「昆仑万维开源全球首款支持无限时长的高质量视频生成模型Skyreels-V2,」支持视频时长自定义,「具备“电影级视频”生成能力」,稳坐开源SOTA。

文章图片
#人工智能#视频生成
有深度!Transformer | 万字长文:详细了解前馈神经网络(FFN),内含对大模型的理解

FFN(Feed-Forward Network)扮演着至关重要的角色。本文将深入介绍FFN层的结构、数学原理、源码理解、在大模型中的应用等内容,旨在揭示其如何通过升维和降维操作增强模型的表达能力,以及其在Transformer中的独特作用。

文章图片
#transformer#神经网络#深度学习
万字长文!最全面的大模型Attention介绍,含DeepSeek MLA,含大量图示!

非常详细!万字长文带你了解Attention,从MHA到DeepSeek MLA,含大量图解!

文章图片
#DeepSeek
    共 72 条
  • 1
  • 2
  • 3
  • 8
  • 请选择