logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【论文阅读】Jet-Nemotron: 高效语言模型与后神经网络架构搜索

Jet- Nemotron- 2B模型在一系列基准测试中实现了与Qwen3、Qwen2.5、Gemma3和Llama3.2相当或更高的准确度,同时提供了高达 53.6× 生成吞吐量加速和 6.1× 预填充加速

文章图片
#论文阅读#语言模型#神经网络
【AI学习】Google 最新的白皮书,《Introduction to Agents》

这里是@黄建同学在微博发的文章,摘录转载一下,做个记录

文章图片
#人工智能#学习
【AI学习】Google 最新的白皮书,《Introduction to Agents》

这里是@黄建同学在微博发的文章,摘录转载一下,做个记录

文章图片
#人工智能#学习
【论文阅读】英伟达ChipNeMo,一个领域大模型的训练案例

这是英伟达针对芯片设计训练的一个领域大模型(ChipNeMo),使用了微调和RAG的组合技术,论文有针对技术细节的大量对比分析,对于理解微调和RAG技术,是一个非常好的技术案例

文章图片
#论文阅读#人工智能#transformer
【论文速读】解码器-解码器架构 YOCO,《You Only Cache Once: Decoder-Decoder Architectures for Language Models》

文章为大型语言模型引入了一个解码器-解码器架构 YOCO,它只缓存一次键值对。它由两个组件组成,即堆叠在自解码器上的交叉解码器。自解码器有效地对全局键值 (KV) 缓存进行编码,交叉解码器通过交叉注意力重用这些缓存。整个模型的行为类似于仅解码器的 Transformer,尽管 YOCO 只缓存一次。该设计大大**降低了 GPU 内存需求,同时保留了全局注意力能力**。此外,计算流程可以在不改变最终

文章图片
#架构#语言模型#人工智能 +1
【AI学习】斯坦福大学教授李飞飞在2024年数据与人工智能峰会上的人工智能历史与未来演讲

要有光。对于生物而言,要有光,原来不是有了光,而是,生物进化了视觉系统,能够看见光,有了光,进一步就有了理解,有了行动。原来如此!

文章图片
#人工智能#学习#深度学习
【AI学习】地平线首席架构师苏箐关于自动驾驶的演讲

在地平线智驾科技畅想日上,地平线副总裁兼首席架构师苏箐(前华为智驾负责人)做了即兴演讲,以下是其演讲的主要内容:对自动驾驶行业的看法自动驾驶的难度与挑战:苏箐表示自动驾驶非常难,他做自动驾驶到现在已经快抑郁了,很多优秀的同学都改行了,去做具身智能机器人。他认为自动驾驶是第一个在物理世界跟人交互的机器人,是在一个半规则和半非规则的场景里面的东西,如果连自动驾驶都搞不定,去做完全是非结构化的机器人是不

文章图片
#人工智能#学习
【论文阅读】BGE Landmark Embedding: 一种用于大语言模型长上下文检索增强的嵌入方法

BGE Landmark Embedding这篇论文要解决的技术问题,在RAG技术中,分块是个麻烦的问题,通常通过经验或启发式方法来解决。但是无论如何,分块打破上下文的连贯性,对嵌入不利,另一方面,连续的信息可能划分到不同的块中,显著的块可以很容易地被检索到,其他有用但不那么显著的块可能被忽视,等等问题。那分块有问题,但是文本太长时又不能不分块,采用滑动窗口就成为一个自然的选择。

文章图片
#人工智能#transformer
【AI学习】人工智能的几种主义

人工智能发展史三根靠得住的基本支柱:一是神经网络,二是强化学习,三是环境模型。

文章图片
#人工智能#学习
    共 98 条
  • 1
  • 2
  • 3
  • 10
  • 请选择