背水个人主页

@2303_77275067

背水

2023-09-09 23:59:55 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

LSTM数学原理以及代码实现

LSTM（Long Short-Term Memory）是一种特殊的循环神经网络（RNN），旨在解决传统 RNN 在长序列训练中的梯度消失和梯度爆炸问题。，包括三个门：输入门（Input Gate）、遗忘门（Forget Gate）和输出门（Output Gate）。这些门通过 Sigmoid 函数（输出范围。（输入门、遗忘门、输出门）来控制信息的流动，从而更好地捕捉长期依赖关系。输入门决定哪些新

#lstm #深度学习 #人工智能 +1

流式延迟（Streaming Latency）

这种能力对于提供流畅的用户体验至关重要，尤其是在实时交互场景中（如语音助手、实时翻译等）。在整个流程中，系统需要在用户说话的同时完成语音识别、文本理解和语音合成，以实现。流式延迟指的是系统在用户说话的同时，能够。在语音对话系统中，除了文本理解和生成语音的质量外，系统生成语音所需的时间。

#语音识别 #人工智能

Qwen-Audio

也就是说，模型在训练时可以同时处理不同类型的任务，并且使得这些任务之间能够相互受益。的，该模型是一个 32 层的 Transformer 解码器模型，隐藏层大小为 4096，包含约 7.7 亿个参数。在音频处理领域，已经开发了多种不同的音频数据集，目的是解决不同的任务。，其核心目标是通过共享标签来促进相似任务的协作，并确保不同任务的输出格式能够区分开来，避免模型产生“一对多”的映射问题。通过这种方

关系代数，数据库选择、投影、连接、除

not#否定操作数的逻辑值，一元运算符#eq#若两运算数相等，则为true,否则为false#ne#若两运算数不相等，则为true,否则为false#gt#若左边运算数严格大于右边，则为true,否则为false#ge#若左边运算数大于或等于右边，则为true,否则为false#lt#若左边运算数严格小于右边，则为true,否则为false#le#若左边运算数小于或等于右边，则为true,否则为f

数据库原理（关系代数）

关系代数，数据库选择、投影、连接、除

#开发语言 #sql

Enhancing Zero-shot Text-to-Speech Synthesis with Human Feedback论文学习

本文提出了一种专为零样本文本到语音（TTS）模型设计的全新优化方法 UNO。UNO 通过数百个自生成的样本，将人类反馈有效地整合到 TTS 的学习目标中。这些样本由深度神经网络模型标注了理想/不理想的伪标签及其相应的标签不确定性。后续的优化过程以不确定性感知的方式直接最大化这些样本的利用。实验结果表明，无论是在客观指标还是由人类评估的主观指标上，UNO 都展现出了显著的效果。我们相信，这项工作能够

#人工智能 #学习

梯度下降优化算法-Adam

Adam 的核心思想：结合动量法和 RMSProp，通过计算梯度的一阶矩和二阶矩，自适应调整学习率。Adam 的更新公式mtβ1⋅mt−11−β1⋅gtmtβ1⋅mt−11−β1⋅gtvtβ2⋅vt−11−β2⋅gt2vtβ2⋅vt−11−β2⋅gt2mtmt1−β1tmt1−β1tmt。

#算法 #深度学习 #机器学习

梯度下降优化算法-RMSProp

RMSProp 的核心思想：通过指数加权移动平均计算历史梯度平方和，自适应调整学习率。RMSProp 的更新公式Eg2tγ⋅Eg2t−11−γ⋅gt2Eg2tγ⋅Eg2t−11−γ⋅gt2θt1θt−ηEg2tϵ⋅gtθt1θt−Eg2tϵη⋅gtPyTorch 实现：使用，设置lralphaeps等参数。优缺点。

#算法 #机器学习 #人工智能

SpeechCraf论文学习

挑战语音风格包含细微的，传统基于标签/模板的标注方法难以充分捕捉，制约了语音-语言多模态模型的性能。数据瓶颈：大规模数据收集与高质量标注之间存在矛盾，亟需自动化标注系统构建兼顾规模与深度的数据集。2.自然语言标注生成假设听到一段语音，里面的人说话。一听就知道TA在害怕。但现在的AI很难把这种“害怕”的语音风格转化成准确的文字描述，比如它可能只会标个“负面情绪”，但无法描述细节（比如“颤抖的哭腔

#学习 #人工智能

到底了