logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Wan2.1 模型文生视频、图生视频、首尾帧生视频推理代码分析

在文生视频模型中,一共有text_encoder(文本embed)、vae(图像编解码)、model(dit模型,扩散模型)三个类,与文生视频模型对比,图生视频仅仅是多了一个CLIPModel与文生视频模型对比,图生视频仅仅是多了一个CLIPModel。与图生视频的结构是一样的。

文章图片
#python#深度学习#视频生成
基于mnn架构在本地 c++运行llm与mllm模型

MNN(Mobile Neural Network)是阿里巴巴集团开源的轻量级深度学习推理框架,为移动端、服务器、个人电脑、嵌入式设备等多种设备提供高效的模型部署能力。MNN支持TensorFlow、Caffe、ONNX等主流模型格式,兼容CNN、RNN、GAN等多种网络结构。MNN具备轻量性、通用性、高性能和易用性特点,能在不依赖特定硬件NPU的情况下运行大型模型,支持模型量化和内存优化技术,能

文章图片
#mnn#c++#人工智能
wan2.1 论文精读二 | 模型设计与加速

关于训练不管是VAE还是DIT都是进行了渐进式的训练,从图像到视频、从低分辨率到高分辨率;关于DIT还经过了高质量数据到后训练,这一阶段类似与LLM基模训练后的指令微调,主要是提升生成视频的视觉保真度和运动动态表现。在视频生成任务中,只有DiT模型会进行优化,而文本编码器和VAE编码器则保持冻结状态。关于性能优化训练过程中用到了全分片数据并行(FSDP)。对于激活值,通过上下文并行(CP)实现。设

文章图片
#AIGC#论文阅读#深度学习
开源项目介绍:Liger-Kernel 用于 LLM 训练的高效 Triton 内核

Liger Kernel 是专为 LLM 训练设计的 Triton 内核集合。它可以有效地提高 20% 的多 GPU 训练吞吐量,并减少 60% 的内存使用。我们已经实施了 Hugging Face 适配,以及更多即将推出的功能。该内核可与 Flash Attention、PyTorch FSDP 和 Microsoft DeepSpeed 配合使用,开箱即用。我们欢迎社区的贡献,以收集用于 LL

文章图片
#开源#深度学习
基于mnn架构在本地 c++运行llm与mllm模型

MNN(Mobile Neural Network)是阿里巴巴集团开源的轻量级深度学习推理框架,为移动端、服务器、个人电脑、嵌入式设备等多种设备提供高效的模型部署能力。MNN支持TensorFlow、Caffe、ONNX等主流模型格式,兼容CNN、RNN、GAN等多种网络结构。MNN具备轻量性、通用性、高性能和易用性特点,能在不依赖特定硬件NPU的情况下运行大型模型,支持模型量化和内存优化技术,能

文章图片
#mnn#c++#人工智能
论文简读 InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

InternVL3.5,一个新型开源多模态模型系列,在泛化性、推理能力和效率方面显著优于前代。核心创新包括:级联强化学习(Cascade RL):结合离线RL(用于稳定训练)和在线RL(用于精细对齐),提升推理能力。视觉分辨率路由器(ViR):动态调整视觉标记分辨率,以可忽略的性能损失降低计算成本。解耦视觉-语言部署(DvD):将视觉编码器与语言模型分置于不同GPU,优化计算负载。这些技术使模型在

文章图片
#深度学习#论文阅读
论文简读:InternVL3| Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

介绍InternVL3(InternVL系列重大升级):实现原生多模态预训练(预训练阶段同步习得语言与多模态能力,规避传统后训练复杂优化难题)。核心技术:引入可变视觉位置编码(支持更长多模态上下文)、结合有监督微调与混合偏好优化等先进后训练策略、采用测试阶段缩放方案。性能表现:全品类多模态任务树立开源模型新标杆,保留强大语言能力;InternVL3-78B在MMMU基准测试中72.2,超越现有开源

文章图片
#AIGC#论文阅读
深度学习4 keras实现基于全连接的自动编码器

自动编码器是一种数据的压缩算法,其压缩和解压缩的函数是通过神经网络实现的。自动编码器=编码器+解码器。编码器的输出既是解码器的输入,解码器输出的shape与编码器输入的shape相同,因此自动编码器其输入和输出的形状是相同的。编码器输出既是自动编码器的编码结果编码器的结构自动编码器的特点1)数据相关:自动编码器只能压缩那些与训练数据类似的数据。对于与训练数据不相似的输入无能为力;2)有损压缩:自动

#深度学习
FastDeploy项目简介,使用其进行(图像分类、目标检测、语义分割、文本检测|orc部署)

FastDeploy是一款全场景、易用灵活、极致高效的AI推理部署工具, 支持云边端部署。提供超过 🔥160+ Text,Vision, Speech和跨模态模型📦开箱即用的部署体验,并实现🔚端到端的推理性能优化。包括 物体检测、字符识别(OCR)、人脸、人像扣图、多目标跟踪系统、NLP、Stable Diffusion文图生成、TTS 等几十种任务场景,满足开发者多场景、多硬件、多平台的产

文章图片
#目标检测#深度学习
深度学习视觉领域中的attention机制的汇总解读(self-attention、交叉self-attention、ISSA、通道注意、空间注意、位置注意、Efficient Attention等)

self-attention来自nlp的研究中,在深度学习视觉领域有不少新的attention版本,为了解各种attention机制。博主汇集了6篇视觉领域中attention相关的论文,分别涉及DAnet(位置注意+通道注意)、CBAM(通道注意+空间注意)、Attention U-Net(注意Gate)、SAGAN(self-attention)、CCNet(交叉self-attention)

文章图片
    共 129 条
  • 1
  • 2
  • 3
  • 13
  • 请选择