logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

train.py代码学习 自学

img0 是 img1 gt是img2 img1是img3 在拼接的时候是按照torch.cat((img0, img1, gt), 0), timestep。#过程就是imgs进行生成中间帧 然后gt用于和生成的中间帧进行损失计算 看update的输入是imgs 和 gt。#data指的是return torch.cat((img0, img1, gt), 0), timestep。#这个'tr

#学习
每日一个有趣的python题

这个题目蛮好蛮有意思的 静下心来好好分析 但是我这个貌似很耗内存呢 有没有大佬指导一下好的且简单易懂的方法。return 0#意思是全是0了或者第一个就是非数字字符返回字符0。注意特殊情况 比如+后面仍然是非数字字符咋办 比如+后面没有任何字符是空的咋办 考虑代码健壮性。result1=s.lstrip('0')#丢掉左边的。s=s.lstrip()#丢弃左侧的指定字符。写出来倒是不难 就是要注意

#算法
python每日一题 砍竹子 中等难度

我偷了一个懒 我觉得这样没啥 就把前面这几个比较特殊的列出来就行 然后测试显示是超过百分之百的速度 我觉得可以滴。然后代码就是这样的 但是没通过测试长度为3的输出是2 看来一定是要砍一节了我真服了。return 2#4和4之前都是本身就是最大的了。

#算法
十分钟明白什么是高光检测?--音频高光检测以及与视觉的对齐

音频高光检测就是利用音频信号去找到那些特别激动人心的片段就比如你看一场球赛 只听声音就知道什么时候进球了 比如讲解员突然很激动 观众席掌声 或者播放了音乐等 这些都可以被算法识别出来 → 这些就是可能的“音频高光”。大家都知道音频都有哪些特征呢?大家看一下虽然大家可能都知道这是啥意思?但是我们还是具体来看模型到底是如何检测出这些特征的变化的。

#音视频
写一些学习的记录

为确保跨系统对齐的可靠性及多源转录的有效整合,必须统一不同自动语音识别系统(ASR)的输出格式。为确保对异常假设的鲁棒性,我们引入了候选过滤模块,该模块通过计算各系统输出与另外两个系统的平均转写结果之间的编辑距离来筛选候选。(对于A的输出,计算它与B,C的平均结果之间的编辑距离,如果A的结果差太多,被排除)(被排除是B,C很权威吗?多系统·集成策略:使用三个语音识别模型,每个语音得到三个不同的转录

#学习
funasr调研

意思就是transformer在自动语音识别(ASR)领域占据主导地位,尽管其性能优异,但是由于是采用自回归(AR)解码器逐token 生成输出,导致计算效率低下。为了加速推理,研究者设计了非自回归(NAR)方法(如单步NAR),实现并行生成。然而,由于输出token间存在独立性假设,单步NAR的性能(尤其是大规模语料下)仍逊于AR模型。

#论文阅读
cosyvoice克隆音色代码分析

sys.path.append 将tired_party/Matcha-TTS目录加入python模块搜索路径,让python能找到该目录下的模块 Matcha-TTs是一个开源tts框架 这是实现cosyvoice的子模块 (我没细看也没修改这部分代码,直接是看输出Log中有下载这个东西的部分)和音频中的保持一致 然后那个instruct2?#然后保存生成的语音波形,输出路径 tts_speec

#java#前端#javascript
论文精读-Enhancing Few-Shot Class-Incremental Learningvia Training-Free Bi-Level Modality Calibration-摘要

​​翻译​​:​​少样本类增量学习(FSCIL)要求模型在样本极少的条件下适应新类别,其挑战性远高于传统类增量学习。​​​​翻译​​:​​现有方法严重依赖视觉模型,且需在基础阶段或增量阶段进行额外训练,而我们提出了一种免训练框架,利用CLIP等预训练视觉-语言模型。​​​​翻译​​:​​我们的方法核心是一种新颖的双层级模态校准(BiMC)策略。​​​​翻译​​:​​框架首先进行层内模态校准,融合大

文章图片
#深度学习#人工智能#机器学习
十分钟明白什么是高光检测?--无监督

这个任务可以用在很多场景,比如:体育比赛精彩镜头提取、教学视频的关键知识点提取、用户生成内容(UGC)中的短视频自动剪辑、自动驾驶中异常事件定位、多模态内容推荐系统自动检测哪些部分是高光部分 这就是精彩片段如何实现视频高光?1. 视频预处理(帧级别)

#音视频
强化学习-ppo简单自学

针对于这两点,可以修改公式,首先对reward求和,不是对整个tragectory进行求和,而是从当前到结束的reward的求和,第二点是引入衰减因子,距离当前t越远,当前动作对reward的影响越小,呈指数衰减。那么一个策略的概率,就是在这个策略中的所有的state和这个state下给出的action的概率的连乘。优势函数,做出某一个具体动作得到的回报,比这个状态的期望回报的差值,表示这个动作相

    共 15 条
  • 1
  • 2
  • 请选择