本文总结一些知识库问答常用数据集,主要包括常见复杂KBQA数据库。
KV Cache(键-值缓存)是一种在大模型推理中广泛应用的优化技术,其核心思想是利用缓存 key 和 value 来避免重复计算,从而提高推理效率。代价是显存占用会增加。在自注意力层的计算中,对于给定的输入序列,模型会计算每个token的key和value向量。这些向量的值在序列生成过程中是不变的。因此,通过缓存这些向量,可以避免在每次生成新token时重复计算,只需计算新token的query
这篇论文通过探索大脑启发的AI设计和自我学习机制,提出了一条新的研究路线。通过自我学习的方式,AI不仅能够提高对环境的适应能力,还能够不断优化自身的决策和行为。🤔讨论:你认为自我学习和大脑启发的AI设计将如何影响未来的智能系统?欢迎在评论区分享你的想法!
传神社区注意到这篇文章中有以下亮点:本文深入探讨了表格数据的语言建模技术,系统分类了表格数据结构和数据类型,并详细介绍了模型训练和评估所用的数据集、建模技术、训练目标、以及数据处理方法。传神社区注意到这篇文章中有以下亮点:本文深入探讨了大语言模型实践中的关键挑战,并通过对基础设施、软件架构、数据、应用和脑科学等主题的系统分类,提供了精辟的解答。传神社区注意到这篇文章中有以下亮点:本文提出了一种创新
使用 YOLOv8 和 DeiT 对医学图像进行脑肿瘤异常感知诊断单位:赞詹大学论文链接:https://arxiv.org/pdf/2401.03302.pdf本文深入研究了最先进的模型,特别是YOLOv8和DeiT,用于肿瘤检测和分类任务的综合评估,还采用了一种新的性能评估方法,称为患者对患者(PTP),重点是对模型的现实评估。在医学领域,由于肿瘤在患者群体中的罕见性,从图像中可靠地检测和分类
个人难以区分社交媒体上泛滥的假新闻的真伪,假新闻的爆炸式增长对社会稳定构成了重大威胁。为了减轻假新闻传播的后果,及时在社交平台上识别它们至关重要。本文受脑科学的启发,提出了一个通过多步骤证据检索增强的假新闻推理框架。本文模型能够通过维基百科自动检索现有证据,进行证据收集,并通过多步骤检索捕捉证据之间的依赖关系。该框架模拟人类在阅读新闻、总结、查阅资料以及推断新闻是否真实的过程中所经历的步骤。模型可
创造性被假设源于一种平衡自发思维和认知控制的心理状态,对应于大脑默认模式网络(DMN)和执行控制网络(ECN)之间的功能连接。在这里,我们对这一假设进行了大规模、多中心的检验。采用。
脉冲神经网络(SNNs)因其能量效率和受大脑启发的事件驱动特性而受到广泛关注。虽然SpikingYOLO等最近的方法已将SNN扩展到更具挑战性的对象检测任务,但它们往往存在高延迟和低检测精度的问题,使其难以部署在对延迟敏感的移动平台上。从人工神经网络到神经网络的转换方法很难保持神经网络的完整结构,导致特征表示较差,转换误差较大。时间步长压缩和尖峰时间相关集成(STDI)编码。前者通过压缩信息来减少
本文提出了一种新的脑机接口技术,使用立体脑电图(sEEG)来解码语音,这是一种侵入性较小的方法。研究者们收集了一个中文单词阅读的sEEG数据集,并开发了Du-IN模型,该模型通过**区域级别的上下文嵌入**来提高语音解码的性能。Du-IN模型在单词分类任务上超越了所有基线模型,**基于区域级别标记的时间建模和自监督的离散码本引导掩码建模等设计对性能有显著贡献**。这种方法基于神经科学发现,利用特定
NeurIPS,全称神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems),是一个关于机器学习和计算神经科学的国际会议。作为目前全球最负盛名的人工智能盛会之一,NeurIPS 在每年年末都是计算机科学领域瞩目的焦点。被 NeurIPS 接收的论文,代表着当今神经科学和人工智能研究的最高水平。
介绍SNN背景,脉冲神经网络具有生物合理性、低能量消耗、时空信息表达能力。
基于EEG信号建模对应任务相关建模,本文参考大型语言模型(LLM)提出一种大量提出的LEM模型,通过大量的脑电数据集,无监督预训练出一个拥有脑电信号感知能力强的大模型(LaBraMs在模型基础上针对下游任务进行微调,得到良好的任务表现。主要贡献把所有数据集中脑电信号做分割实现跨数据集学习。用矢量量化神经光谱预测()训练语义丰富的神经标记生成器(),将连续的原始脑电图通道片段编码成紧凑的神经编码。简
Large Brain Model for Learning Generic Representations with Tremendous EEG Data in BCI 介绍了一种新型的大型脑电图(EEG)模型,名为Large Brain Model(LaBraM),旨在克服传统基于EEG的深度学习模型在脑机接口(BCI)应用中的局限性,如模型规模有限、感知能力和泛化性不足。**LaBraM通
FLUXNET2015是一个强大的全球生态系统数据集,适用于多种生态学和气候研究。在使用该数据集时,建议用户仔细阅读文档,理解数据的处理流程和质量控制方法,特别是关注数据质量标志和不确定性估计。通过合理选择通量分区方法和辅助数据产品,可以更好地利用该数据集进行科学研究。
问题描述:现有语音分离模型无法兼顾效率和性能。解决方案:本文基于脑启发,提出了一个能够模拟大脑自上而下注意力的高效自编码器架构用于语音分离任务。具体地,它利用全局注意力(GA)模块和级联的局部注意力(LA)模块来获得一个自上而下的注意力表示。实验结果:在三个基准数据集上进行了实验,与之前的 SOTA 模型 Sepformer 相比,TDANet 实现了一致性的具有竞争力的性能,并且效率极高。
Temporal Transformer:设计了轻量化的Temporal Transformer来转换信息的维度,并最大化地保留有价值的信息。MLF方法基于LIF神经元,其主要思路为使用MLF unit(可以理解为新的脉冲神经元)替换掉SNN中的LIF神经元。后面的阶段时间步长较小,以降低整体的推理时延。需要在时间步长收缩的同时转换前一个阶段的输出维度,以使其能够用作后一个阶段的输入。将SNN划分
scannetv2数据集使用。
本文介绍了Real3D-AD,一个旨在解决高精度点云异常检测领域现有限制的挑战性数据集。尽管高精度点云异常检测被认为是识别先进加工和精密制造缺陷的黄金标准,但数据集的稀缺和缺乏系统性基准测试阻碍了该领域的发展。Real3D-AD通过提供1,254个高分辨率3D物品(每个物品从四万到数百万个点)成为迄今为止最大的高精度3D工业异常检测数据集,其点云分辨率(0.0010mm-0.0015mm)、360
原始数据:2013年7月到2014年6月,170万条数据过滤位于城市(或国家)区域之外的轨迹过滤包含少于20个点或超过200个点的轨迹——>137W轨迹为两个数据集设置相同的采样率,即15秒根据轨迹的开始时间戳将每个数据集划分为训练集和测试集,其中前100万条轨迹用于训练,其余的用于测试根据位置和时间戳,在三个月内选择了一个相对集中的轨迹集,数量为100𝑘删除少于50个点的记录,并将整个区域划分
作者提出了一类新的策略梯度方法用于强化学习,这类方法通过在环境交互中采样数据与使用随机梯度上升优化“代理”目标函数之间交替进行。标准的策略梯度方法在每个数据样本上进行一次梯度更新,而作者提出了一种新的目标函数,使得能够在每个小批量更新中进行多次迭代。作者将这种新方法称为近端策略优化(PPO),具有信任域策略优化(TRPO)的一些优点,但它们更易于实现,更具通用性,并且在样本复杂度上(根据经验)表现
论文 “使用深度学习系统自动检测视网膜图像中的 9 种婴儿眼底疾病和病症(2024)”,开发了婴儿视网膜智能诊断系统(IRIDS),能够自动检测 9种眼底疾病:早产儿视网膜病变(ROP)(轻度ROP、中度ROP和重度ROP)、视网膜母细胞瘤(RB)、视网膜色素变性(RP)、Coats病、脉络膜缺损、先天性视网膜皱襞
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 论文阅读笔记
在这篇论文中,建立了一个统一的、可扩展的足球理解多模态框架。具体来说,本文介绍了SoccerReplay-1988,这是迄今为止最大、最全面的足球视频数据集,由自动管理管道注释。这为开发多模式足球理解模型提供了坚实的基础,并成为一个更具挑战性的基准。在此基础上,本文开发了第一个足球视觉语言基础模型,称为MatchVision,它有效地利用了足球视频中的时空信息,可以应用于各种任务,如事件分类和评论
kimi-vl是月之暗面团队于2025年4月10日发布的多模态大模型。代码链接:https://github.com/MoonshotAI/Kimi-VL有钱真好,超大规模数据+卓越的AI Infra+算法,造就多模态的性能小钢炮。
对话推荐系统(CRS)旨在通过交互式对话向用户推荐高质量的项目。为了开发有效的CRS,高质量数据集的支持是必不可少的。现有的CRS数据集主要关注用户的即时请求,而缺乏对推荐场景的主动引导。在本文中,我们贡献了一个新的CRS数据集,名为TG-ReDial(通过主题引导的对话进行推荐)。我们的数据集具有两个主要特点。首先,它结合了主题线索,以确保向推荐场景的自然语义转换。其次,它是以半自动方式创建的,
论文笔记-Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation-AAAI'2025
Omni-Scene: 采用 Omni-Gaussian 表示法,通过结合基于像素和基于体积高斯表示的优势,实现了以自我中心的稀疏视图场景下高保真的三维重建,并支持多模态三维场景生成。
如果你正为论文里的丑图被导师痛批而头秃,Origin就是来拯救你的「科研美图秀秀」!简单来说,它是个专为科研人设计的绘图软件,我们看到论文里面各种漂亮的折线图,柱状图,散点图,损失函数对比图等,其实都是利用Origin来绘制的。Origin的优势如下
金丝雀样本设计方法:我们开发了金丝雀样本设计方法,这一方法能够有效识别或构造对特定防御机制最敏感的数据样本。金丝雀样本的设计考虑了数据特征、模型行为和防御机制的特点,通过精心选择能够最大程度暴露防御机制弱点的样本集合。为确保评估的可靠性,我们特别注意保持这些样本之间的独立性,避免评估结果被某些特定模式所主导。自适应攻击方法:不同于传统的固定攻击策略,这些攻击方法能够根据防御机制的具体实现方式自动调
Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware 论文阅读笔记
本文总结了WWW 2025有关时空数据(Spatial-Temporal)相关文章,OpenReview上可以看到接收列表。如有疏漏,欢迎大家补充。时空数据Topic:轨迹相似度计算,轨迹生成,交通预测,地理位置嵌入表示,POI推荐等
大家平常看到AI方向的论文当中,各种神经网络模型图,架构图非常好看精美,这些是如何画出来的呢? 其实即便是新手小白也可以利用PPT的一些科研模板和技巧来绘制出这些精美的神经网络的模型图,架构图等,并不需要从零开始用ProcessOn或者Visio去画这些高难度的图形。下面贴出三张用PPT模板绘制的一些图形给大家看看。(ps:这是学术干货系列第四弹,分别介绍了EndNote,Origin,MathT
A Comprehensive Evaluation of Quantization Strategies for Large Language Models全面评估大型语言模型的量化策略论文阅读——————大模型量化的一个小综述
台积电在技术论坛上表示,其 N2 工艺研发进展顺利,预计在 2025 年下半年按计划量产。N2 工艺将采用纳米片晶体管结构,显著提升芯片性能和能效。
这篇博客主要用于记录2025年在一些顶会顶刊(AAAI、CVPR等)上发表的SNN相关的论文,会附上相关论文的链接及简单介绍,正在更新中…
EMNLP 2023存在这样一个现实:LLM的零样本或者少样本提示学习的能力强劲,但是有时候明明看起来一致的提示词却表现出了较大的输出差异。假设,在考虑与任务相关的合理提示时,提示的困惑度越低,它在任务上的性能就越好。这是基于这样的直觉:提示(或非常相似的短语)在训练数据中出现的频率越高,模型就越熟悉它,并且能够执行所描述的任务。不直接使用训练数据,专注于对提示词困惑度的考量。
1、设计了一个大规模的视觉语言模型InternVL,将视觉模型扩展到60亿参数,并于LLM进行对齐2、采用了3个阶段进行逐步对齐,在视觉感知任务上,视觉语言和MLLMs上实现先进的性能
DUSt3R在几何计算机视觉领域引入了一种新颖的范式,提出了一种能够对任意图像集合进行密集且无约束的立体三维重建的模型,而无需事先了解相机校准或视角姿态信息。然而,DUSt3R在内部处理图像对并且回归局部三维重建,这些重建需要在全局坐标系中对齐。图像对的数量呈二次增长,这一固有限制在大规模图像集合的鲁棒和快速优化中尤为突出。本文提出了一种将DUSt3R从图像对扩展到多视图的扩展方法,解决了上述所有
AAAI 2025将在2025年2月25日到3月4日于美国费城( Philadelphia, Pennsylvania, USA)举行。AAAI 2025共有篇投稿(Main Technical Track),共录取了篇论文,录取率。本文总结了2025 AAAI上有关时间序列(time series)相关论文,共计55篇
TimeMixer模型针对时间序列预测的复杂性提出了一个多尺度混合架构,旨在利用过去可分解混合(PDM)模块提取过去的关键信息,并通过未来多预测器混合(FMM)模块进行未来序列的预测。具体来说,TimeMixer首先通过平均下采样生成多尺度观测,然后PDM采用可分解设计更好地处理季节性和趋势变化的不同属性,通过在精细到粗略和粗略到精细方向上分别混合多尺度季节性和趋势组件。FMM在预测阶段集成多个预
本文将详细介绍如何快速获取一张虚拟信用卡,并通过该卡来获取ChatGPT Plus和ChatGPT Pro。
如何用知网+deepseek写综述
2.17-2.23大模型领域热点论文精选速览
RAP-SAM模型的提出,标志着实时全能分割领域的一个新里程碑。它不仅在速度和准确性上取得了优异的平衡,而且在多任务分割任务上展现了卓越的性能。RAP-SAM的设计理念和架构为未来的研究提供了新的方向,特别是在实时、多功能和交互式分割任务的融合上。随着技术的进一步发展,RAP-SAM及其未来的改进版本有望在各种实际应用中发挥重要作用,推动实时分割技术的发展和应用。声明:本期论文解读非人类撰写,全文
论文阅读
——论文阅读
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net
登录社区云,与社区用户共同成长
邀请您加入社区