logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

长上下文语言模型综述:让 AI 拥有 “长期记忆” 的关键技术解析

多年来,大语言模型(LLMs)一直是在狭窄的“上下文窗口”内运行,即它们一次能够处理的文本量。这种限制通常只有几千字,就像眼罩一样,阻碍了它们处理涉及长篇文档、长时间对话或复杂数据集的复杂任务的能力。

文章图片
#人工智能#语言模型#easyui +4
CVPR 2024 | 基于基础模型的少样本目标检测

少样本目标检测(FSOD)旨在通过少量训练样本检测目标。视觉特征提取和查询-支持相似性学习是两个关键组件。现有的工作通常基于ImageNet预训练的视觉骨干网络,并设计复杂的度量学习网络进行少样本学习,但精度仍然较低。在本工作中,作者研究了使用现代基础模型的少样本目标检测。首先,使用仅视觉对比预训练的DINOv2模型作为视觉骨干,该模型在不调整参数的情况下表现出强大的可迁移性能。其次,使用大型语言

文章图片
#目标检测#人工智能#计算机视觉 +3
大模型应用开发终极指南!从单智能体到多智能体React框架,看完这篇直接上手!

基于大模型的领域场景开发,说到底无非是借助基座模型对语义的理解推理能力,将通用AI变为专有AI工具的过程。但仅仅只做模型调用,来实现复杂类需求,对生产力的提升并没有太大帮助。因此在围绕提升研发生产力的过程,从大模型问世到现在,卷出了各种大模型工程规范。从最早的提示词工程到RAG,再到流程编排模式,每个阶段无疑都是对研发生产力的不断提升。

文章图片
#react.js#前端#前端框架 +4
大模型应用开发终极指南!从单智能体到多智能体React框架,看完这篇直接上手!

基于大模型的领域场景开发,说到底无非是借助基座模型对语义的理解推理能力,将通用AI变为专有AI工具的过程。但仅仅只做模型调用,来实现复杂类需求,对生产力的提升并没有太大帮助。因此在围绕提升研发生产力的过程,从大模型问世到现在,卷出了各种大模型工程规范。从最早的提示词工程到RAG,再到流程编排模式,每个阶段无疑都是对研发生产力的不断提升。

文章图片
#react.js#前端#前端框架 +4
AI模型边云协作框架:云端大模型与边缘小模型协同分布式训练和部署

在本节中,我们概述了3GPP SA1 Release 18中探讨的边缘云协作下的AI模型训练和部署框架。如图1所示,这些分布式AI框架包括数据和模型的分布与共享,通常采用模型极简主义和压缩技术,如知识蒸馏(KD),其他框架还包括模型聚合(如联邦学习,FL)和模型拆分(如分割学习,SL)。我们将这些框架与表1中提出的自底向上的BAIM架构进行了对比,强调了现有框架的局限性,并总结了阻碍BAIM分布式

文章图片
#人工智能#分布式#transformer +3
收藏这篇就够了!AI大模型重构产业的5大核心模式,小白也能秒懂!

今天讨论AI大模型,最重要的一个议题是,AI对一个产品、服务、产业意味着什么?对于一个个体、企业、区域、国家的竞争力意味着什么?未来3-5年,哪些产业的竞争力会被AI大模型**重新定义**,以及以什么方式重构定义?

文章图片
#人工智能#重构#microsoft +3
收藏这篇就够了!AI大模型重构产业的5大核心模式,小白也能秒懂!

今天讨论AI大模型,最重要的一个议题是,AI对一个产品、服务、产业意味着什么?对于一个个体、企业、区域、国家的竞争力意味着什么?未来3-5年,哪些产业的竞争力会被AI大模型**重新定义**,以及以什么方式重构定义?

文章图片
#人工智能#重构#microsoft +3
大模型的“金鱼记忆”终结了!HippoRAG,给AI装上“海马体”,实现永不遗忘!

本文介绍了HippoRAG,一个受人类海马体记忆机制启发的检索增强生成框架,通过模拟大脑新皮层和海马体的协作机制,显著提升大语言模型的知识整合能力,在多跳问答任务中性能提升高达20%。

文章图片
#人工智能#transformer#大数据 +2
大模型的“金鱼记忆”终结了!HippoRAG,给AI装上“海马体”,实现永不遗忘!

本文介绍了HippoRAG,一个受人类海马体记忆机制启发的检索增强生成框架,通过模拟大脑新皮层和海马体的协作机制,显著提升大语言模型的知识整合能力,在多跳问答任务中性能提升高达20%。

文章图片
#人工智能#transformer#大数据 +2
我宣布,不懂Transformer,就不懂大模型!万字长文,带你回到AI革命的“原爆点”!

本系列的文章由浅入深介绍LLM的基础知识,从大模型的使用,到原理解析,再到LLM系统实战。 这篇深入浅出的文章旨在解析大型语言模型(LLM)的智能来源,核心聚焦于其基础架构——Transformer的原理与构造。文章详细阐述了模型如何通过分词、词嵌入和位置编码将离散文本转化为可计算的连续向量,并强调了注意力机制在捕捉序列中复杂依赖关系中的关键作用。此外,它深入剖析了由自注意力层和前馈网络组成的解码

文章图片
#人工智能#transformer#深度学习 +4
    共 1555 条
  • 1
  • 2
  • 3
  • 156
  • 请选择