登录社区云,与社区用户共同成长
邀请您加入社区
该研究提出了一种基于深度学习与投票分类器技术的ROP分区预测方法。通过集成VGG-19、ResNet-50、EfficientNetB5和自定义CNN四种模型,在1365张眼底图像的数据集上实现了88.82%的分类准确率,较单一最优模型(EfficientNetB5)提升1.55%。研究创新性地将硬投票策略应用于ROP区域识别任务,构建了首个公开的临床ROP数据集,并验证了EfficientNet
本次科技聚焦《 Journal of Advanced Research 》,适合计算机领域学者投递尝试
本文总结了ICLR 2026中23篇时空数据相关论文,涵盖交通预测、城市科学、气象预测等领域。论文平均评分为5.28分,其中6篇均分≥6分。重点研究包括基于Koopman算子的交通流预测、多模态地理表征学习框架MoRA、事件驱动的人类移动生成模型ELLMob等。这些工作展现了时空数据分析在智能交通、城市计算等领域的创新应用,特别是结合大语言模型和深度学习的新方法。完整论文列表及评分详见正文。
本文是对论文《DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries》的深度解读。在自动驾驶视觉感知领域,基于多相机图像的 3D 目标检测面临深度估计误差与后处理冗余等挑战。研究团队提出 DETR3D 框架,以自上而下的 3D-to-2D 查询方式融合多视图信息,无需密集深度预测与 NMS 后处理,在 nuSc
预训练使用224*224的图像训练ImageNet,预训练好后使用预训练网络的前20个卷积层+平均池化层+全连接层,(其他论文说明:在预训练的网络中同时添加卷积层和连接层可以提高性能)再加4层卷积和2层全连接(随机初始化权重)去训练检测任务,输入大小为448×448。利用图像的宽和高对box的宽和高做归一化,使其介于0和1之间(box的宽高/原图像的宽高)。(3)此外,小的bbox的偏差应当比大的
人脸识别,是人工智能最基础、最落地的应用技术,我们日常随处可见:手机人脸解锁、小区门禁打卡、公司人脸考勤、车站人脸核验,全部都是人脸识别系统的落地使用。很多计算机、人工智能、大数据专业的大学生,一听到「人脸识别系统」,就觉得门槛极高、必须会写大量代码、懂算法原理,零基础根本学不会。熟悉人脸识别的应用场景、系统组成、核心优缺点,搞懂活体检测、人脸比对的基础概念,区分照片伪装、动态人脸识别的差异。完整
本文介绍了一个学术论文引文系统的实现过程,该系统通过规则抽取、Semantic Scholar API、Neo4j和LangGraph构建引文图谱。系统首先使用正则表达式和置信度分级从PDF中提取参考文献,然后通过Semantic Scholar API获取论文元数据,并利用Neo4j构建引文图谱。文章详细讨论了技术选型(规则抽取优于LLM)、参考文献格式处理、置信度分级策略以及应对API限流的解
ICML 2026将在2026年7月6日—11日于韩国首尔(Seoul, South Korea)举行。本文总结了2026 ICML上有关时空数据(Spatial-Temporal)相关论文。如有疏漏,欢迎大家补充。注:笔者将分为上下2篇推文来总结,本文主要涉及时空数据中有关气象数据,物理时空等论文。本文时空数据Topic:天气预报,物理时空,LLM/MLLM等的应用等。
Posq∈RNA×2Posq∈RNA×2NAN_ANA:锚点数量每个点存储xy(x,y)xy,归一化 0~1网格锚点:均匀铺在图上可学习锚点:随机初始化,跟着训练一起学DETR慢的根源:查询无明确空间责任,注意力散乱难优化。Anchor DETR 解法查询=锚点编码,责任明确,收敛狂快。:一个锚点多模式,解决同位置多物体。RCDA 行列解耦注意力省显存、速度快、硬件友好。最终效果。
只用了很少的真机训练数据(7.5k条),通过“P图”扩充数据和“预测动作片段”而非单步动作,训练出了一个能听懂人话、在没见过的厨房场景里也能完成多种复杂任务的通用机器人。
今日候选池 91 篇,硬过滤 + LLM 打分后通过评估 16 篇,精选 Top-10,另列 6 篇速览
摘要:Meta发布的LLaMA系列开源大语言模型(7B-65B参数)采用完全开源数据训练(1.4万亿tokens),通过架构创新实现高效性能:1)RMSNorm预归一化提升稳定性;2)SwiGLU激活函数增强表达能力;3)RoPE位置编码优化长文本处理。实验显示,13B模型超越GPT-3(175B),65B模型达到SOTA水平。该研究证明小模型+大数据策略的有效性,其技术方案(如SwiGLU、Ro
摘要 本文首次研究了通用Web智能体在对抗环境中的隐私风险。针对涉及个人身份信息(PII)的Web任务,作者提出了环境注入攻击(EIA)方法,通过注入适应网页环境的恶意内容来窃取用户PII或完整请求。实验使用Mind2Web数据集和SeeAct智能体框架,结果显示EIA在窃取特定PII时成功率高达70%,在窃取完整请求时达16%。研究发现EIA难以检测和防御,人工监督虽能发现未良好适配的攻击,但攻
WebInject是一种针对Web智能体的新型提示注入攻击方法,通过操纵网页原始像素值诱导智能体执行攻击者指定动作。该方法将攻击建模为优化问题,旨在最大化目标动作概率的同时保持扰动对用户不可见。为解决网页到截图映射不可微的挑战,作者训练神经网络近似该映射,并采用投影梯度下降求解优化问题。实验表明,WebInject在多个数据集上显著优于现有基线方法,成功率提升0.91。该攻击具有实用可行性,同时兼
今日候选池 85 篇,硬过滤 + LLM 打分后通过评估 11 篇,精选 Top-10,另列 1 篇速览
2026.6.15本文提出 PASS-Tr,通过逐块跨切片 Swin 注意力融合相邻 CT 切片,并接入二维视觉基础模型,以提升通用病灶检测及其他 CT 任务的泛化能力。Title题目01基于逐块 Swin 切片注意力的二维大视觉模型泛化增强通用病灶检测PASS-Tr: PAtch-wise swin slice attention to leverage generalization of 2D
文章摘要: 本文提出一种基于图神经网络(GNN)的低复杂度预编码方法,用于解决低地球轨道(LEO)卫星大规模MIMO通信中的能效优化问题。针对LEO卫星高速运动导致的信道动态性和传统迭代算法计算复杂度高的问题,作者结合Dinkelbach变换和加权最小均方误差(WMMSE)优化框架,利用GNN建模多用户干扰关系,并通过泰勒近似降低矩阵求逆开销。实验结果表明,该方法在保持接近传统优化性能的同时显著降
今日候选池 89 篇,硬过滤 + LLM 打分后通过评估 13 篇,精选 Top-10,另列 3 篇速览
Hi,大家好,我是半亩花海。现对领域内一篇SCI一区TOP期刊论文进行阅读,文献记录如下。本文提出了一种基于残差卷积与Transformer网络(R-TNet)和特征迁移策略的锂离子电池健康状态(SOH)估计方法。针对现有方法对固定充电区间和长度的依赖问题,该方法创新性地实现了任意长度随机充电片段的SOH估计。通过残差卷积网络作为嵌入层和交叉注意力机制,有效整合了工况信息与老化特征。实验结果表明,
本文介绍了如何在星图GPU平台上自动化部署bitnet-b1.58-2B-4T-gguf极致高效、原生1.58-bit量化开源大模型,打造科研论文阅读助手。该模型特别适合学术场景,能自动生成论文摘要、解读图表数据并解释专业术语,显著提升科研人员文献阅读效率。
所有层都缺乏将 Harness 暴露为可替换实体的机制,也缺乏闭环改进机制。Claude Code 的动态工作流允许模型在运行时生成脚本,但仅限于单次会话,缺乏持久化优化和跨会话进化HarnessX 通过 RL 与符号 Harness 进化之间的“操作镜像”实例化了这一范式。AEGIS 是进化 Harness 的系统。。单纯进化 Harness 会遇到“脚手架天花板”(模型能力不足无法利用更好的
本文提出了一种名为 RoboFactory 的框架和基准测试,利用大模型生成“逻辑、空间、时间”三重限制条件,来自动化地生成高质量的多机器人协作训练数据,并探索了如何训练多机器人模仿学习模型。
谷歌DeepMind与浙江大学团队近日发布的多模态大模型Archon,突破了数字人领域长期存在的"拼凑式"技术瓶颈。该模型通过三大创新实现了任意模态间的高保真转换:1)将视频分解为"语义骨架"和"画质渲染"两阶段处理,使Token数量减少75%;2)引入"模态内省"机制,通过中间模态过渡提升生成稳定性;3)基于统一架构实现72种子任务的协同训练,支持台词修改、性别转换等复杂编辑。实验显示其性能超越
论文阅读
——论文阅读
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net