登录社区云,与社区用户共同成长
邀请您加入社区
AI当裁判时确实会“看位置下菜碟”,但这不是随机的,而是和裁判本身、任务类型、答案质量差距有关。它给我们提了个醒:用AI当裁判时,不能只看“总体评分”,还要查它对不同任务、不同位置的偏见,最好结合多个裁判的意见,尤其是评“质量差不多的答案”时,得特别小心位置带来的误差。
在本文中,我们综述了利用强化学习赋能大型语言模型进行推理的近期进展。强化学习在推动 LLM 能力前沿方面取得了卓越的成功,尤其是在解决数学和编程等复杂的逻辑任务上。因此,强化学习已成为将 LLM 转变为语言推理模型 (LRM) 的一种基础性方法。随着该领域的飞速发展,将强化学习进一步扩展应用于 LRM 不仅在计算资源方面,也在算法设计、训练数据和基础设施方面面临着基础性挑战。为此,我们有必要及时回
其他保持默认设置(可以按照需求自行调整),点击using custom embeddings。然后找到这两个插件(第一个只是为了日常翻译使用,第二个便是利用大模型翻译产生结果)translate那个插件能够直接选中使用,对于第二个awesome需要进行配置。选择:INstall Plugin From File...,导入文件。点开文章,使用ctrl+/或上面的chatgpt(红色)直接使用。),
人工智能(AI)已经完成了从大型企业专属的未来概念到中小企业(SMEs)可获取且必不可少的增长杠杆的转变。这种转变的速度和规模前所未有,对于企业家和商业领袖而言,战略性地采用AI不再是一种选择,而是保持竞争力、运营效率和长期生存的必要条件。令人信服的量化证据支撑着这一论断。根据Salesforce 2024年的研究,91%使用AI的中小企业报告称,AI直接提升了他们的收入。这种收入增长并非偶然,而
EdgeMark:嵌入式AI工具的自动化基准测试系统 本文提出EdgeMark系统,旨在解决嵌入式人工智能工具选择和部署中的关键挑战。研究分析了TensorFlow Lite Micro、Edge Impulse等主流eAI工具的核心架构和优化技术,包括内存管理、量化算法和硬件特定优化。EdgeMark采用模块化设计,通过自动化工作流程实现从模型生成到部署的全过程,并创新性地开发了Arena Si
TEG任务是指给定 topic 集合,生成主题相关、段落集的文本。过去的任务忽略了常识知识,本文通过动态记忆机制将外部知识库中的常识集成到生成器中。因为来源信息的极度不足可能会使生成的文章在新颖性和主题一致性方面质量低下。所以在这篇论文中精心设计了一个记忆增强神经模型,有效地融合了常识性知识。其动机是来自外部知识库的常识可以提供额外的背景信息。
虽然自然图像的空间具有复杂的拓扑结构,但可以通过同调群 Hk 的近似来更好地理解,其中前 k 个群形成对拓扑的 k 阶近似。通过对我们的数据进行归一化,近似中的零阶项 H0 被消除。然后,一阶项 H1 包含自然图像的最基本结构,即线性梯度。由于线性梯度通常由它们的角度参数化,而角度自然地被圆形结构所包含,所以我们拓扑的一阶近似是一个圆。Carlssons的工作实际上表明第一贝蒂数是3,这表明 H1
在大模型时代,知识图谱作为一种结构化的知识表示方式,扮演着至关重要的角色。随着大模型在自然语言处理、图像识别和智能决策等领域的广泛应用,知识图谱与大模型的结合成为推动人工智能进步的重要方向。这种结合不仅提升了大模型的语义理解和推理能力,还增强了其在多模态数据处理、模型解释和持续学习等方面的表现。接下来,我们将探讨几种最为关键的结合点,展示知识图谱如何与大模型协同工作,推动前沿应用的发展。:将知识图
Title题目Acquisition-independent deep learning for quantitative MRI parameter estimation using neural controlled differential equations基于神经控制微分方程的采集无关深度学习用于定量MRI参数估计01文献速递介绍定量磁共振成像(QMRI)参数作为影像生物标志物的应用及神
首先,Dynamo允许用户透明地适应各种高性能计算平台,如gpu或CPU集群。其次,Dynamo通过GUI界面和脚本资源实现了用户友好性。第三,Dynamo通过插件API提供用户灵活性。除了校准和平均程序,Dynamo还包括用于可视化和分析结果和数据的本地工具,以及对第三方可视化软件的支持,如Chimera UCSF或EMAN2。作为这些功能的一个演示,我们研究了细菌鞭毛马达,并显示自动检测的类缺
在进行数据分析的时候,通常有一个场景:我有一批数据,但是不知道该怎么分析,才能找到写论文的突破口和角度。因为目前的o1版本还不能上传附件,你可以将数据直接粘贴在对话框进行上传,同时告诉ChatGPT这一批数据都是这个格式,总计1万条。o1在回复的时候首先思考了28秒,以下是它的思考过程(它是真的在模拟人类大脑系统2的慢思考!这不,ChatGPT的最先进模型o1-preview和o1-mini版本最
从给定的文本描述生成图像有两个目标:视觉真实感和语义一致性。在本文中,我们提出MirrorGAN。MirrorGAN利用了通过重新描述学习文本到图像生成语义文本嵌入模块(STEM)、用于级联图像生成的全局-局部协作关注模块(GLAM)和语义文本再生和对齐模块(STREAM)。STEM:生成词级和句子级嵌入。GLAM:利用局部词注意和全局句子注意,逐步增强生成图像的多样性和语义一致性。STREAM:
多个基准测试(如DRISHTIKON、ConViS-Bench)被提出以评估模型性能,关注文化理解、视觉空间智能等维度。在文生图/视频方面,Lyra框架通过自蒸馏实现了3D场景重建。训练优化方面,OTCCLIP框架利用最优传输提升数据质量,Hyper-Bagel则提出统一加速框架提升多模态任务效率。
知识图谱综述2021
➡️ 研究动机:为了提高多模态情感识别的准确性和细致度,研究团队提出了MicroEmo,一个时间敏感的MLLM,旨在关注面部微表情的时间动态和话语感知视频片段的上下文依赖性。4) 通过微调LLMs的少量参数来选择最终的实体。该方法通过动态聚合模态特定和模态无关的LoRA专家,部分解耦多模态生成空间,从而在不显著增加参数的情况下,提升模型的多模态生成能力。➡️ 问题背景:当前的多模态生成模型在视觉文
大型语言模型 (LLM) 在自然语言处理和计算机视觉等领域得到了广泛应用。除了文本、图像和图形之外,LLM还具有分析时间序列数据的巨大潜力,使气候、物联网、医疗保健、交通、音频和金融等领域受益。这篇综述论文对利用LLM进行时间序列分析的各种方法进行了深入的探索和详细的分类。强调了法学硕士原始文本数据训练与时间序列数据的数值性质之间差距的固有挑战,并探索将LLM知识迁移和蒸馏到数值时间序列分析的策略
➡️ 实验设计:在MovieChat数据集上进行了实验,实验设计了不同的组件(如链式思维、CLIP Score指导的帧采样、上下文学习)的变化,以及不同模式(全局模式和断点模式)的评估,以全面评估模型在不同条件下的表现。➡️ 研究动机:为了应对LLMs和MLLMs在特定领域训练时的灾难性遗忘问题,研究团队提出了一种新的模型无关的自解压方法——树生成(Tree Generation, TG),该方法
下一个兴趣点 (POI) 推荐任务是根据用户的历史数据来预测用户的下一次 POI 访问。基于位置的社交网络(LBSN)数据通常用于下一个 POI 推荐任务,但也面临着挑战。一项经常被忽视的挑战是如何有效地利用 LBSN 数据中存在的丰富上下文信息。以前的方法受到数值性质的限制,无法解决这一挑战。本文提出了一个使用预训练大语言模型(LLM)来应对这一挑战的框架。该框架允许我们以原始格式保存异构 LB
PINN实在太好发论文了!在Nature、Science,和NeurIPS、ICLR等顶会上,都是霸榜的存在。PINN(物理信息神经网络)与LSTM(长短期记忆网络)的融合研究,已成为深度学习领域突破高区的创新路径。
该综述以“配置使用流程”为框架,系统梳理了2022年至今35篇基于LLM的软件配置研究,清晰呈现了LLM在配置生成(提示增强为主)、验证(传统技术+LLM辅助)、运维(诊断修复闭环探索)三阶段的应用现状。研究发现,当前LLM已在网络配置、K8S配置等场景展现出实用价值,但仍面临泛化能力弱、可解释性差、依赖高质量资源等挑战。未来,需通过轻量微调、跨领域迁移学习、智能体闭环架构等技术,推动LLM从“特
该论文首次将卷积神经网络(CNN)成功应用于文档识别任务,提出了经典的LeNet-5架构,通过局部连接、权重共享等创新设计,实现了端到端的手写字符识别。论文还提出图变换网络(GTN)用于统一优化文档识别的各个模块,在MNIST数据集上取得当时最优性能,并实际应用于银行支票识别系统。虽然存在训练数据依赖性强、实现复杂度高等局限,但该工作奠定了现代深度学习文档识别的基础范式,其"自动特征学习"和"全局
《VLM-MPC: Model Predictive Controller Augmented Vision Language Model for Autonomous Driving》是威斯康星大学于2024年8月发表的一篇论文,提出了一种结合视觉语言模型(VLM)和模型预测控制器(MPC)的自动驾驶控制器VLM-MPC。该控制器通过异步分层架构,上层VLM生成驾驶参数,下层MPC实时控制车辆,
图 2 概述了方法。
实验在多图像描述任务和故事叙述任务上进行了广泛的测试,结果表明,SAM模型在这些任务上的表现显著优于现有方法,分别在组描述任务和故事叙述任务上提高了37%和22%的CIDEr分数。➡️ 研究动机:为了克服上述限制,研究团队提出了一种新的Video-MLLM——Video-CCAM,通过在视觉编码器和大语言模型(LLM)之间的中间投影器中应用交叉注意力层,并引入因果交叉注意力掩码(CCAMs),以提
1)对于数据集,除了领域数据,依然需要公共数据,避免由于微调带来模型原有能力的灾难性遗忘。2)需要有领域评估基准,同样的,评估基准需要包含公共的LLM学术基准。3)数据重采样,这个方面,比如文章提到“对代码数据进行了下采样,同时对自然语言数据,特别是设计文档进行了上采样”等,但是,具体的采样比例如何获得,文章并没有说。参考其他来源,数据重采样的合适比例,应该是通过尝试获得,训练后如果评估效果不好,
论文链接:论文源码:
LLaVA 是一种大型多模态模型,通过指令微调将视觉编码器与大型语言模型(LLM)相结合,显著提升了视觉和语言任务的性能,尤其在多模态对话和指令遵循方面表现出色。
综述《Unifying Large Language Models and Knowledge Graphs: A Roadmap》统一大语言模型和知识图谱粗略笔记
视觉基础模型 (VFM) 是在广泛的数据集上进行训练的,但通常仅限于 2D 图像,自然会出现一个问题:它们对 3D 世界的理解程度如何?由于架构和训练协议(即目标、代理任务)存在差异,迫切需要一个统一的框架来公平、全面地探究他们的 3D 感知。现有的 3D 探索工作主要关注单视图 2.5D 估计(例如深度和法线)或双视图稀疏 2D 对应(例如匹配和跟踪)。但是这些任务忽略了纹理感知,并且需要 3D
论文阅读 - Fame for sale: efficient detection of fake Twitter followers - Cresci - 2015数据集介绍
Investigating Critical Frequency Bands and Channels for EEG-based Emotion Recognition with Deep Neural Networks
通过简单的表征工程,无需训练即可提升LLM的推理性能。
现有仓库级代码补全方法多基于检索增强生成(RAG),但存在查询构建不恰当、检索路径单一、检索器与代码LLM错位三大问题。为此,本文提出CodeRAG框架:首先,通过对数概率引导的探测策略,利用代码LLM的置信度筛选关键代码块构建检索查询;其次,融合稀疏检索、密集检索与数据流引导检索,实现多路径代码知识获取;最后,设计偏好对齐的BESTFIT重排序机制,用Qwen3-8B筛选最优知识,并蒸馏为轻量重
底层架构方面,Qwen3-Omni首次实现文本、图像、音频和视频的统一高性能处理。Orcust框架通过创新奖励模型提升了GUI交互效率;V2V-GoT提出协同自动驾驶新架构。行业应用方面,ClassMind系统实现AI课堂观察,医疗领域则探索MLLM的病灶定位能力。模型训练策略涌现TACTFL联邦学习框架和COLA测试时自适应方法。多项基准测试发布,包括听觉知识评估AuditoryBench++、
本研究针对专有云LLM隐私风险高、本地LLM评估缺失的问题,扩展AI代码生成评估框架FACE(支持Ollama离线运行、JSON数据整合、断点续跑),采用3589道Kattis题(禁止分享答案,确保评估真实性),对8个6.7-9B参数的本地LLM开展测试。结果显示:本地LLM整体接受率低,最佳的Yi-Coder(5.7%)和Qwen2.5-Coder(5.4%),仅为Gemini 1.5(10.9
本文研究了28 GHz毫米波在隧道环境中的MIMO信道特性。通过实验测量和仿真分析,比较了水平极化(HH)与垂直极化(VV)配置的性能差异。研究采用高增益定向天线克服毫米波路径损耗,并使用射线追踪软件建立仿真模型。结果表明:1)仿真与测量结果吻合良好;2)水平极化配置在恒定信噪比下表现出更高的MIMO容量,这归因于隧道壁反射导致的更大角度扩展;3)当发射-接收距离超过45米时,HH配置的优势更为明
最后研究者给了个建议:现在的AI还不能直接拿来当“裁判”用,想用的话,必须先针对具体任务,拿人类标注结果做验证——比如你想用AI评机器翻译,得先确认这个AI在“翻译评估”任务上跟人类一致,才能用,不能随便找个AI就用。这篇文档其实是一项关于“用大语言模型(LLMs)代替人类做评估”的大规模实验研究,核心就是想搞清楚:现在的AI模型(比如GPT-4o、Llama这些)能不能靠谱地替代人类,去判断NL
Title题目Unsupervised Domain Adaptation for EM ImageDenoising With Invertible Networks基于可逆网络的电镜图像去噪无监督域自适应方法01文献速递介绍电子显微镜图像去噪相关研究进展与本文方法 电子显微镜(EM)是生物医学图像分析领域的关键成像技术。其卓越的成像分辨率能够实现纳米尺度生物结构的分析。然而,图像质量与采集时间
在数据生成方面,GUI-ReWalk框架通过随机探索和意图推理生成多样化GUI交互数据;UNIV模型实现了红外与可见光模态的统一表征。智能体研究取得突破,ACDC系统实现自然语言驱动的无人机拍摄,MicroRCA-Agent则用于微服务故障诊断。模型预训练方面,Manzano框架整合混合视觉分词器,VOX-KRIKRI实现语音与语言的连续融合。训练策略创新包括动态CFG调度框架和基于思维图的双层强
不是完全都是人体动作。这一部分全部介绍的都是关于人体动作的生成。例如,它提到“神经动作生成,从动作捕捉数据中学习”、“从前缀姿态预测动作”、“解决插值和超分辨率任务”、“编辑和控制动作”、“根据动作类别、音频和自然语言进行控制”等,这些都明确指向生成人体动作。这一部分首先介绍了扩散模型作为一种通用生成模型。它提到扩散模型在“图像生成应用”中取得了突破,例如“文本到图像(text-to-image)
为解决真实Web应用攻击数据量小、差异性大及攻击载荷多样化导致大模型训练效果差的问题,提出基于联邦大模型的网络攻击检测方法(FL-LLMID)。首先,设计面向大模型微调的联邦学习网络,服务器对客户端本地模型的增量参数进行增量聚合,提升参数聚合效率并避免网络流量数据暴露;其次,构建CodeBERT-LSTM攻击检测模型,通过CodeBERT对应用层数据有效字段向量编码,结合LSTM分类,实现高效We
论文阅读
——论文阅读
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net