logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

神经网络架构「殊途同归」?ICML 2024论文:模型不同,但学习内容相同

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达来源:新智元仅用于学术分享,若侵权请联系删除自从AI跨入大模型时代以来,Scaling Law几乎成为了一个共识。论文地址:https://arxiv.org/abs/2001.08361OpenAI的研究人员在2020年的这篇论文中提出,模型的性能与三方面的指标呈幂律关系:参数量N、数据集规模D以及训练算力C。除了这三方面外,

#神经网络#学习#人工智能 +2
不用英伟达GPU!华为盘古Ultra来了:昇腾原生、135B稠密通用大模型

在 8192 卡规模的集群中,使用了 128 路数据并行(Data Parallelism)、8 路张量并行(Tensor Parallelism)和 8 路流水线并行(Pipeline Parallelism),同时结合了 ZeRO 和序列并行(Sequence Parallelism),以降低模型参数、优化器状态和激活值的显存占用。Pangu Ultra 采用了改进的子序列切分并行方式,针对每

基于深度学习模型融合的工业产品(零部件)工艺缺陷检测算法简述

分发层,只是原来单个网络的输入层。空白层,这一层的目的是进一步梳理特征信号,进一步处理,比如添加合适的比例放大特征图等等,当然,这只是初步的想法,还没有实际去做。VGG16相比前辈AlexNet网络做了诸多改进,其中比较主要的是采用连续的几个3x3的卷积核代替AlexNet中的较大卷积核(11x11,7x7,5x5),对于给定的感受野(与输出有关的输入图片的局部大小),采用堆积的小卷积核是优于采用

#深度学习#算法#人工智能
只需6G显存,就能本地跑的AI视频算法,开源了!

FramePack 的出现非常重要,不仅是对技术本身的突破,而是在大幅度降低本地 AI 视频创作硬件需求的情况下,让 AI 视频生成技术变得更加更加容易上手玩,让更多人可以享受到 AI 视频创作的乐趣。而现在,使用新发布的 FramePack,只需要一个带有 6GB GPU 内存的 RTX 3060 笔记本,就可以在本地流畅地生成。实验发现第三种采样方法可以将用户的输入视为高质量的第一帧,并不断优

#人工智能
用Qwen3+MCPs实现AI自动发布小红书笔记!支持图文和视频

在Cherry Studio MCP服务器里配置文生图MCP-server,魔搭上目前有几个支持生图的MCP,比如ModelScope-Image-Generation-MCP和MiniMax-MCP,两者都在魔搭的云端资源上部署,可以支持SSE的方式调用。魔搭自动发布小红书MCP,是魔搭开发者小伙伴实现的小红书笔记自动发布器,可以通过这个MCP自动完成小红书标题、内容和图片的发布。而就在今天,自

#人工智能
没有穿越,DeepSeek-V3又登顶了!杭州黑马撼动硅谷AI霸主,抹去1万亿市值神话

在AI大模型竞技场LMSYS上,发布不到半个月的DeepSeek-V3-0324,已经超过了曾经的「当红炸子鸡」DeepSeek-R1!腾讯旗下拥有超10亿用户的微信平台,将DeepSeek的模型接入后,用户量呈爆发式增长,迅速成为中国AI领域的明星企业。作为异军突起的现象级产品,DeepSeek的增长速度除了创造AI产品的增长奇迹,更是重新定义了全球的AI竞赛格局。奥特曼也表达了自己的焦虑,并考

#人工智能
NeurIPS 2025 爆仓!AI顶会反噬整个学术圈!「不发表就会死」。。。

从投稿到发表就长达6-7个月,而AI领域的技术每7个月就更新一轮,这意味着——论文刚发出来,SOTA就已更新换代,导致很多成果已经过时。因此,学生、独立研究者、边缘学者可能被「挡在门外」,自然交流、跨领域合作机会被压缩,这样就使得学术社群的包容性和开放性也严重受限。尤其是在2023-2024年,由于LLM的爆炸式进展,AI研究者的年均发文数已经超过了4.5篇,并且还有继续飙升的趋势。这样做的优势就

#人工智能
太香了!让Qwen3-0.6B拥有视觉,保姆级教程来了!

以Qwen2.5-VL为例,其3B、7B、72B模型大小指的只是LLM部分,并没有包含Vision模块,实际上3B模型的参数量接近4B,视觉模块大概0.4B左右,三个不同大小的VLM使用的是统一的视觉模型。识别错误的原因实际上是由于训练步数过少导致的。SmolVLM2-256M版本用的是Google的SigLip模型,一个基于ViT的视觉模型,选用的是最小的SigLip-93M的版本,HF论文里没

DEIMv2登场:当实时DETR遇上DINOv3,YOLO系列迎来最强对手

DEIMv2的成功,标志着基于DETR的实时检测器在与YOLO的竞争中,已经从“追赶者”变成了“领跑者”。它不仅证明了视觉基础模型(如DINOv3)在实时检测任务中的巨大潜力,更通过巧妙的适配器设计(STA)和系统性的多尺度优化,为如何在资源受限的条件下有效利用这些大模型提供了宝贵的经验。CV君认为,这个STA模块是本文最大的亮点,它用一种“参数免费”的方式(双线性插值)和极小的代价(轻量CNN)

CVPR 2025最佳论文揭晓!3D视觉研究最被看好?

:实验采用了新收集的数据集,并通过在野外问答数据和创新的2D指向数据上的微调,证明了72B Molmo模型在开放权重和数据模型类别中的领先性能,并与GPT-4o、Claude 3.5和Gemini 1.5等私有系统在学术基准和人类评估中进行了比较。】:PanAf-FGBG数据集包含20小时野生黑猩猩行为视频,共350个独立相机位置,实验使用该数据集,评估了在分布内和分布外条件下的模型性能,并提出了

#3d
    共 1071 条
  • 1
  • 2
  • 3
  • 108
  • 请选择