
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
大型语言模型(LLM)的最新进展引发了人们对能够解决复杂现实世界任务的AI智能体的兴趣。然而,大多数现有的智能体系统依赖于部署后保持静态的手工配置,限制了它们适应动态和演变环境的能力。为了解决这一局限性,最近的研究探索了智能体进化技术,旨在根据交互数据和环境影响自动增强智能体系统。这一新兴方向为自我进化的AI智能体奠定了基础,它们连接了基础模型的静态能力与终身智能体系统所需的持续适应性。在本调查中

尝试通过本地直接进行文生图,魔搭平台提供免费的API接口,非常方便。

ReAct 通过交错推理与行动,首次在统一框架中实现了 LLM 的“边想边做”,在知识推理与交互决策任务中均取得显著性能与可解释性提升,为构建更智能、可控、可扩展的语言智能体开辟了新路径。

图像生成模型,包括两部分,先通过VAE,将原始图像变换到隐空间,然后在隐空间进行图像的生成,最后再通过VAE的解码变换到图像域。但是传统的方式,对于VAE部分,也就是论文说的Pre-training of Visual Tokenizers部分,无法scaling——而且,token部分的scaling还与下游的模型生成出现相反的效果。论文分析,这里的原因,在于,传统的的token部分,主要是进行

摘要:大模型在企业应用中面临长序列处理挑战,包括行业知识整合、复杂推理和个性化记忆需求带来的算力压力。长序列导致显存不足,如单个token会放大3.5万倍KV缓存。华为提出解决方案:1)预存专业知识库的KV Cache实现快速查询;2)采用稀疏注意力优化。这与Deepseek、英伟达的外置存储方案形成技术对比,共同应对长序列场景(如总结、问答)的算力瓶颈。

Jet- Nemotron- 2B模型在一系列基准测试中实现了与Qwen3、Qwen2.5、Gemma3和Llama3.2相当或更高的准确度,同时提供了高达 53.6× 生成吞吐量加速和 6.1× 预填充加速

这里是@黄建同学在微博发的文章,摘录转载一下,做个记录

这是英伟达针对芯片设计训练的一个领域大模型(ChipNeMo),使用了微调和RAG的组合技术,论文有针对技术细节的大量对比分析,对于理解微调和RAG技术,是一个非常好的技术案例

文章为大型语言模型引入了一个解码器-解码器架构 YOCO,它只缓存一次键值对。它由两个组件组成,即堆叠在自解码器上的交叉解码器。自解码器有效地对全局键值 (KV) 缓存进行编码,交叉解码器通过交叉注意力重用这些缓存。整个模型的行为类似于仅解码器的 Transformer,尽管 YOCO 只缓存一次。该设计大大**降低了 GPU 内存需求,同时保留了全局注意力能力**。此外,计算流程可以在不改变最终

这是关于大模型的DPO方法的论文,尝试使用腾讯元宝进行快速阅读!








