logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LSTM数学原理以及代码实现

LSTM(Long Short-Term Memory)是一种特殊的循环神经网络(RNN),旨在解决传统 RNN 在长序列训练中的梯度消失和梯度爆炸问题。,包括三个门:输入门(Input Gate)、遗忘门(Forget Gate)和输出门(Output Gate)。这些门通过 Sigmoid 函数(输出范围。(输入门、遗忘门、输出门)来控制信息的流动,从而更好地捕捉长期依赖关系。输入门决定哪些新

文章图片
#lstm#深度学习#人工智能 +1
流式延迟(Streaming Latency)

这种能力对于提供流畅的用户体验至关重要,尤其是在实时交互场景中(如语音助手、实时翻译等)。在整个流程中,系统需要在用户说话的同时完成语音识别、文本理解和语音合成,以实现。流式延迟指的是系统在用户说话的同时,能够。在语音对话系统中,除了文本理解和生成语音的质量外,系统生成语音所需的时间。

文章图片
#语音识别#人工智能
Qwen-Audio

也就是说,模型在训练时可以同时处理不同类型的任务,并且使得这些任务之间能够相互受益。的,该模型是一个 32 层的 Transformer 解码器模型,隐藏层大小为 4096,包含约 7.7 亿个参数。在音频处理领域,已经开发了多种不同的音频数据集,目的是解决不同的任务。,其核心目标是通过共享标签来促进相似任务的协作,并确保不同任务的输出格式能够区分开来,避免模型产生“一对多”的映射问题。通过这种方

文章图片
#深度学习
数据库原理(关系代数)

关系代数,数据库选择、投影、连接、除

文章图片
#开发语言#sql
Lingo数学建模基础

not#否定操作数的逻辑值,一元运算符#eq#若两运算数相等,则为true,否则为false#ne#若两运算数不相等,则为true,否则为false#gt#若左边运算数严格大于右边,则为true,否则为false#ge#若左边运算数大于或等于右边,则为true,否则为false#lt#若左边运算数严格小于右边,则为true,否则为false#le#若左边运算数小于或等于右边,则为true,否则为f

文章图片
数据库原理(关系代数)

关系代数,数据库选择、投影、连接、除

文章图片
#开发语言#sql
Enhancing Zero-shot Text-to-Speech Synthesis with Human Feedback论文学习

本文提出了一种专为零样本文本到语音(TTS)模型设计的全新优化方法 UNO。UNO 通过数百个自生成的样本,将人类反馈有效地整合到 TTS 的学习目标中。这些样本由深度神经网络模型标注了理想/不理想的伪标签及其相应的标签不确定性。后续的优化过程以不确定性感知的方式直接最大化这些样本的利用。实验结果表明,无论是在客观指标还是由人类评估的主观指标上,UNO 都展现出了显著的效果。我们相信,这项工作能够

文章图片
#人工智能#学习
梯度下降优化算法-Adam

Adam 的核心思想:结合动量法和 RMSProp,通过计算梯度的一阶矩和二阶矩,自适应调整学习率。Adam 的更新公式mtβ1⋅mt−11−β1⋅gtmt​β1​⋅mt−1​1−β1​⋅gt​vtβ2⋅vt−11−β2⋅gt2vt​β2​⋅vt−1​1−β2​⋅gt2​mtmt1−β1tmt​1−β1t​mt​。

文章图片
#算法#深度学习#机器学习
梯度下降优化算法-RMSProp

RMSProp 的核心思想:通过指数加权移动平均计算历史梯度平方和,自适应调整学习率。RMSProp 的更新公式Eg2tγ⋅Eg2t−11−γ⋅gt2Eg2t​γ⋅Eg2t−1​1−γ⋅gt2​θt1θt−ηEg2tϵ⋅gtθt1​θt​−Eg2t​ϵ​η​⋅gt​PyTorch 实现:使用,设置lralphaeps等参数。优缺点。

文章图片
#算法#机器学习#人工智能
SpeechCraf论文学习

挑战 语音风格包含细微的,传统基于标签/模板的标注方法难以充分捕捉,制约了语音-语言多模态模型的性能。数据瓶颈: 大规模数据收集与高质量标注之间存在矛盾,亟需自动化标注系统构建兼顾规模与深度的数据集。2.自然语言标注生成假设听到一段语音,里面的人说话。一听就知道TA在害怕。但现在的AI很难把这种“害怕”的语音风格转化成准确的文字描述,比如它可能只会标个“负面情绪”,但无法描述细节(比如“颤抖的哭腔

文章图片
#学习#人工智能
到底了