logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【AI学习】对微调(Fine-tuning)的理解

做一个不十分准确的对比,对比一个人的学习过程,预训练有点像学校学习,从小学一直到本科、硕士、博士等,SFT有点像进入单位的短期实习,RLHF有点像单位的规章制度学习,告诉你什么可以做什么不能说,要尊敬领导不要反驳领导等等

文章图片
#人工智能#学习
【论文阅读】Visual Planning: Let’s Think Only with Images

当前多模态大模型(MLLMs)虽能处理图像输入,但其推理过程仍完全依赖文本模态,导致在空间、几何、物理动态等视觉主导任务中表现不佳。论文质疑:“是否必须将视觉信息转换为文本才能推理?” 并提出——能否让模型像人类一样“用图像思考”?

文章图片
#论文阅读#人工智能
【论文阅读】REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

ReAct 通过交错推理与行动,首次在统一框架中实现了 LLM 的“边想边做”,在知识推理与交互决策任务中均取得显著性能与可解释性提升,为构建更智能、可控、可扩展的语言智能体开辟了新路径。

文章图片
#论文阅读#语言模型
【论文阅读】《Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models》

推理是智能的核心,塑造了决策、得出结论和跨领域泛化的能力。在人工智能中,随着系统越来越多地运行在开放、不确定和多模态的环境中,推理对于实现鲁棒和适应性行为变得至关重要。大型多模态推理模型(LM-RMs)已成为一种有前景的范式,通过整合文本、图像、音频和视频等模态来支持复杂的推理能力。它旨在实现全面的感知、精确的理解和深入的推理。随着研究的进展,多模态推理已迅速从模块化、感知驱动的管道发展到统一、以

文章图片
#人工智能#音视频
【论文速读】LM的文本生成方法,Top-p,温度,《The Curious Case of Neural Text Degeneration》

这篇文章,描述的是语言模型的文本生成的核采样的方法,就是现在熟知的top-p大概看看,还有几个地方比较有趣,值得记录一下。

文章图片
#深度学习#机器学习#人工智能 +1
【论文阅读】A Survey of Reinforcement Learning for Large Reasoning Models

在本文中,我们综述了利用强化学习赋能大型语言模型进行推理的近期进展。强化学习在推动 LLM 能力前沿方面取得了卓越的成功,尤其是在解决数学和编程等复杂的逻辑任务上。因此,强化学习已成为将 LLM 转变为语言推理模型 (LRM) 的一种基础性方法。随着该领域的飞速发展,将强化学习进一步扩展应用于 LRM 不仅在计算资源方面,也在算法设计、训练数据和基础设施方面面临着基础性挑战。为此,我们有必要及时回

文章图片
#论文阅读
【论文阅读】BGE Landmark Embedding: 一种用于大语言模型长上下文检索增强的嵌入方法

BGE Landmark Embedding这篇论文要解决的技术问题,在RAG技术中,分块是个麻烦的问题,通常通过经验或启发式方法来解决。但是无论如何,分块打破上下文的连贯性,对嵌入不利,另一方面,连续的信息可能划分到不同的块中,显著的块可以很容易地被检索到,其他有用但不那么显著的块可能被忽视,等等问题。那分块有问题,但是文本太长时又不能不分块,采用滑动窗口就成为一个自然的选择。

文章图片
#人工智能#transformer
【论文阅读】ChipNeMo中的数据集处理

1)对于数据集,除了领域数据,依然需要公共数据,避免由于微调带来模型原有能力的灾难性遗忘。2)需要有领域评估基准,同样的,评估基准需要包含公共的LLM学术基准。3)数据重采样,这个方面,比如文章提到“对代码数据进行了下采样,同时对自然语言数据,特别是设计文档进行了上采样”等,但是,具体的采样比例如何获得,文章并没有说。参考其他来源,数据重采样的合适比例,应该是通过尝试获得,训练后如果评估效果不好,

文章图片
#论文阅读#语言模型#人工智能 +1
【AI工具】试用秘塔AI搜索的“生成互动网页”功能

试用了秘塔AI搜索的“生成互动网页”功能,简单实用!

文章图片
#人工智能#学习
【论文阅读】WebSailor: Navigating Super-human Reasoning for Web Agent

当人类面对浩如烟海的互联网信息时,我们总会被有限的记忆、短暂的注意力和串行搜索路径所束缚。OpenAI 的 DeepResearch 之所以被称为"超人",正因为它突破了这些生理天花板,在 BrowseComp 等极限基准上取得碾压式领先。问题是:开源社区能否复制这种"超级推理"?阿里巴巴通义实验室的最新力作 WebSailor 给出了响亮回答

文章图片
#论文阅读
    共 80 条
  • 1
  • 2
  • 3
  • 8
  • 请选择