logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI环境音频(场景音效)合成技术详解

在AI生成音频领域。主要涉及文本到语音(TTS)、语音克隆、音乐生成、环境音效合成等子任务。近年来,AI场景音频合成技术快速发展,当前主流方法涵盖基于音效库匹配、GAN、Diffusion和大语言模型(如AudioGen)等多种技术路线。最新进展包括Google V2A、Diff-Foley等视频到音频模型,以及索尼开源的MMAudio多模态模型,通过跨模态联合训练实现音画同步。这些技术在虚拟现实

文章图片
#人工智能#音视频#深度学习 +1
使用SGLang部署Qwen3 Reranker系列模型

在使用SGLang部署Qwen3 Reranker系列模型时,由于模型架构差异会出现API不兼容问题。本文将基于生成式架构的Qwen3ForCausalLM转换为二分类模型Qwen3ForSequenceClassification,通过提取yes,no token的权重向量构建新的分类器,最终使用classify接口实现模型部署。该方法借鉴了VLLM的解决思路,成功实现了SGLang部署Qwen

文章图片
#深度学习#nlp#自然语言处理 +2
使用vLLM部署Qwen3 Reranker系列模型

VLLM部署Qwen3 重排模型时会出现不支持Score、rerank API错误,原因是vllm 目前没有办法允许单个架构同时支持嵌入和重排,解决方法是将( Qwen3ForCausalLM)模型转换为序列分类架构(Qwen3ForSequenceClassification),提取yes和no token的权重差异作为分类器向量。通过修改模型架构并替换分类头,可实现与原始模型相同的评分功能,从

文章图片
#人工智能#算法#nlp +2
AI环境音频(场景音效)合成技术详解

在AI生成音频领域。主要涉及文本到语音(TTS)、语音克隆、音乐生成、环境音效合成等子任务。近年来,AI场景音频合成技术快速发展,当前主流方法涵盖基于音效库匹配、GAN、Diffusion和大语言模型(如AudioGen)等多种技术路线。最新进展包括Google V2A、Diff-Foley等视频到音频模型,以及索尼开源的MMAudio多模态模型,通过跨模态联合训练实现音画同步。这些技术在虚拟现实

文章图片
#人工智能#音视频#深度学习 +1
HBuider X运行不了php,运行显示“浏览器运行尚不支持此种类型文件”

HBuider X运行不了php,运行显示“浏览器运行尚不支持此种类型文件”,HBuilder X不支持php运行

文章图片
#php#开发语言
android Socket文件传输(readFully)

最近写的项目里要用到文件传输的功能,因此我查找了很多相关的博文,查找到的文章都大同小异。但是这些内容仅限于一些小文件,比如一个几百K到的txt文档,但是我们实际需要传输的数据量远大于这个数,解决不了实际问题。因此这篇博文将用readfully方法实现较大文件的传输,当然这个也有一定的局限性,只适用一些较大的文件,大约在100M以内,对于更大的文件,涉及断点续传的问题,本篇文章没有展现。

文章图片
#android#tcp/ip
到底了