m0_62653520 个人主页

@m0_62653520

m0_62653520

2024-03-17 18:01:17 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

MRR（Mean Reciprocal Rank）和 NDCG（Normalized Discounted Cumulative Gain）

（MRR（Mean Reciprocal Rank）平均倒数排名：第一个正确答案排在第几位，比如搜索python教程，第一个是python官网广告，第二个是某培训机构广告，第三个是python官方文档，第四个是某博客教程。排在第 2 位：打折，得分 = Gain / log₂(2+1) = Gain / 1.58。排在第 1 位：不打折，得分 = Gain / log₂(1+1) = Gain /

#机器学习 #人工智能

train.py代码学习自学

img0 是 img1 gt是img2 img1是img3 在拼接的时候是按照torch.cat((img0, img1, gt), 0), timestep。#过程就是imgs进行生成中间帧然后gt用于和生成的中间帧进行损失计算看update的输入是imgs 和 gt。#data指的是return torch.cat((img0, img1, gt), 0), timestep。#这个'tr

#学习

每日一个有趣的python题

这个题目蛮好蛮有意思的静下心来好好分析但是我这个貌似很耗内存呢有没有大佬指导一下好的且简单易懂的方法。return 0#意思是全是0了或者第一个就是非数字字符返回字符0。注意特殊情况比如+后面仍然是非数字字符咋办比如+后面没有任何字符是空的咋办考虑代码健壮性。result1=s.lstrip('0')#丢掉左边的。s=s.lstrip()#丢弃左侧的指定字符。写出来倒是不难就是要注意

#算法

python每日一题砍竹子中等难度

我偷了一个懒我觉得这样没啥就把前面这几个比较特殊的列出来就行然后测试显示是超过百分之百的速度我觉得可以滴。然后代码就是这样的但是没通过测试长度为3的输出是2 看来一定是要砍一节了我真服了。return 2#4和4之前都是本身就是最大的了。

#算法

十分钟明白什么是高光检测?--音频高光检测以及与视觉的对齐

音频高光检测就是利用音频信号去找到那些特别激动人心的片段就比如你看一场球赛只听声音就知道什么时候进球了比如讲解员突然很激动观众席掌声或者播放了音乐等这些都可以被算法识别出来 → 这些就是可能的“音频高光”。大家都知道音频都有哪些特征呢？大家看一下虽然大家可能都知道这是啥意思？但是我们还是具体来看模型到底是如何检测出这些特征的变化的。

#音视频

写一些学习的记录

为确保跨系统对齐的可靠性及多源转录的有效整合，必须统一不同自动语音识别系统（ASR）的输出格式。为确保对异常假设的鲁棒性，我们引入了候选过滤模块，该模块通过计算各系统输出与另外两个系统的平均转写结果之间的编辑距离来筛选候选。（对于A的输出，计算它与B,C的平均结果之间的编辑距离，如果A的结果差太多，被排除）（被排除是B，C很权威吗？多系统·集成策略：使用三个语音识别模型，每个语音得到三个不同的转录

#学习

funasr调研

意思就是transformer在自动语音识别（ASR）领域占据主导地位，尽管其性能优异，但是由于是采用自回归（AR）解码器逐token 生成输出，导致计算效率低下。为了加速推理，研究者设计了非自回归（NAR）方法（如单步NAR），实现并行生成。然而，由于输出token间存在独立性假设，单步NAR的性能（尤其是大规模语料下）仍逊于AR模型。

#论文阅读

cosyvoice克隆音色代码分析

sys.path.append 将tired_party/Matcha-TTS目录加入python模块搜索路径，让python能找到该目录下的模块 Matcha-TTs是一个开源tts框架这是实现cosyvoice的子模块（我没细看也没修改这部分代码，直接是看输出Log中有下载这个东西的部分)和音频中的保持一致然后那个instruct2?#然后保存生成的语音波形，输出路径 tts_speec

#java #前端 #javascript

论文精读-Enhancing Few-Shot Class-Incremental Learningvia Training-Free Bi-Level Modality Calibration-摘要

翻译：少样本类增量学习（FSCIL）要求模型在样本极少的条件下适应新类别，其挑战性远高于传统类增量学习。翻译：现有方法严重依赖视觉模型，且需在基础阶段或增量阶段进行额外训练，而我们提出了一种免训练框架，利用CLIP等预训练视觉-语言模型。翻译：我们的方法核心是一种新颖的双层级模态校准（BiMC）策略。翻译：框架首先进行层内模态校准，融合大

#深度学习 #人工智能 #机器学习

十分钟明白什么是高光检测?--无监督

这个任务可以用在很多场景，比如：体育比赛精彩镜头提取、教学视频的关键知识点提取、用户生成内容（UGC）中的短视频自动剪辑、自动驾驶中异常事件定位、多模态内容推荐系统自动检测哪些部分是高光部分这就是精彩片段如何实现视频高光？1. 视频预处理（帧级别）

#音视频

共 16 条

请选择