logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【思路】stable diffusion应用场景细分及实现设想

通过调整风格编码或其他控制参数,可以对生成的姿势序列进行精确的控制,以满足特定的音乐风格要求。通过使用稳定扩散,可以根据音频特征来引导网络生成相应的姿势,并确保姿势序列与音频的节奏、情感或其他特征相匹配。表情动画生成:结合人脸姿势和表情建模以及表情特征,生成具有逼真和连贯表情的动画序列。姿势合成和转换:根据生成的姿势序列,可以进行后处理和优化,确保流畅和连贯性。可控性参数:提供一些可调整的参数,如

文章图片
【资源】stable diffusion常用checkpoint

翻墙下载实在太慢了,还不稳定,就把常用的一些checkpoint传网盘了,需要自取~

文章图片
【转载】光流法基本原理+深度学习中的应用【FlowNet】【RAFT】

① 基于梯度的方法(微分法)利用时变图像灰度的时空微分(时空梯度函数)来计算像素的速度矢量。② 基于匹配的方法有基于特征和基于区域两种。基于特征的方法是对目标特征进行定位和跟踪,目标大的运动和亮度具有更好的鲁棒性。基于区域的方法是对类似的区域进行定位,通过相似区域的位移计算光流。③ 基于能量的方法(频率)要获得均匀光流场的准确的速度估计,必须对输入图像进行时空滤波处理,即对时间和空间进行整合。④

文章图片
#深度学习#人工智能
【nvidia-smi】Failed to initialize NVML: Driver/library version mismatch

这意味着系统中安装的驱动包与正在使用的内核模块版本不匹配,导致了 GPU 驱动问题。可以看到目前系统安装的 NVIDIA 驱动包版本是。,但是内核模块显示的版本是。

文章图片
#linux#运维#服务器
【debug】nvidia-smi:Failed to initialize NVML: Unknown Error

上执行 Docker 命令,因为容器本身没有权限直接重启自己。只能联系宿主机那边给重启一下容器。尚未以systemd作为初始系统启动。检查方法:ps -p 1 -o comm=今天用服务器时又突然报错cuda不可用,输入nvidia-smi检查,报错如题。想重启 Docker 容器中,通常需要在。尝试 exit 退出容器再进入:无效。等字样,那么是在某种虚拟化环境中。,那么说明没有虚拟化。但是文中

文章图片
#linux#深度学习#运维
【论文阅读】Beyond Text: Frozen Large Language Models in Visual Signal Comprehension

关注如何让LLM直接理解视觉信号(如图像),不依赖于多模态数据集的微调。将图像看作语言实体,将图像编码为LLM词表中的离散token(单词)。设计了Vision-to-Language Tokenizer(V2L Tokenizer):通过encoder-decoder架构、LLM词表和CLIP模型将图像翻译成LLM可解释token。转换后,冻结的LLM不仅能做图像理解类任务,还能做图像去噪和修复

#语言模型#人工智能#自然语言处理
【论文阅读】Reward Fine-Tuning Two-Step Diffusion Models via Learning Differentiable Latent-Space

这篇论文提出了一种新的框架LaSRO,用于在潜在空间中学习可微分的替代奖励,从而有效解决了两步扩散模型的微调问题。​:通过广泛的消融研究和实验,验证了LaSRO在不同奖励目标下的有效性和稳定性,优于流行的强化学习方法(如DDPO和Diffusion-DPO)。​:未来的研究可以进一步探索LaSRO在其他类型的两步扩散模型中的应用,并优化其设计以提高在不同任务和奖励信号下的性能。​:LaSRO的TD

文章图片
#论文阅读
【论文阅读】UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions

解决的问题:现在很多开源“音频-视频生成”要么是两段式:先出视频再配音(或反过来),要么是“端到端”但对人声(尤其是说话、情绪、音色)很弱。两段式最大毛病是:生成时模态是解耦的,视频在“听不见”的环境里生成,音频在“看不见”的环境里生成,于是常见问题是:口型对不上(lip sync)语气/情绪和表情/动作不一致音色/身份信息不稳(这人看起来像 A,说出来像 B)他们要做的是:一个统一模型,同时支持

文章图片
#论文阅读
【论文阅读】Improving the Diffusability of Autoencoders

目前常用的 autoencoder 潜空间中含有太多高频成分,这会干扰扩散模型的“由粗到细”生成流程,从而降低生成质量。作者提出一种非常简单的正则化方法(scale equivariance),可显著提升图像和视频的生成效果。

文章图片
#论文阅读#视频生成
【nvidia-smi】Failed to initialize NVML: Driver/library version mismatch

这意味着系统中安装的驱动包与正在使用的内核模块版本不匹配,导致了 GPU 驱动问题。可以看到目前系统安装的 NVIDIA 驱动包版本是。,但是内核模块显示的版本是。

文章图片
#linux#运维#服务器
    共 15 条
  • 1
  • 2
  • 请选择