logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CosyVoice2:阿里开源语音合成模型,模仿、生成、细粒度控制,全部拿下!(附使用方法、论文代码详解)

CosyVoice 2是由阿里巴巴集团开发的先进流式语音合成模型,它不仅继承了前代模型的优秀基因,更通过一系列创新性的技术优化,实现了在保持极低延迟的同时,生成质量几乎与人类发音无异的语音。CosyVoice 2模型的核心优势在于其能够提供接近人类发音自然度的合成语音。

文章图片
#语音识别#人工智能#音视频 +2
DeepseekMath:超强开源数学模型(论文详解)

在本研究中,作者引入了DeepSeekMath,这是一个特定于领域的语言模型,它的数学性能显著优于开源模型,在学术基准测试中接近GPT-4的性能水平。为了实现这一目标,作者创建了DeepSeekMath语料库,这是一个包含120 B个数学标记的大规模高质量预训练语料库。在初始迭代中,使用OpenWebMath中的实例来训练分类器作为正面例子,同时纳入了其他网页的多样化选择作为负面例子。随后,使用基

文章图片
#深度学习
西瓜书《机器学习》全网最详细解读 第六章:支持向量机

本文是《机器学习》(西瓜书)第六章支持向量机的详细解读。主要内容包括:1. 支持向量机的基本原理,介绍了最大间隔分类超平面的概念及其数学表达;2. 对偶问题的推导与求解方法,包括KKT条件和SMO算法;3. 核函数的作用与性质,如何通过核技巧解决非线性可分问题;4. 软间隔支持向量机,引入松弛变量处理噪声和异常点;5. 支持向量回归(SVR)的实现原理;6. 核方法在机器学习中的广泛应用。文章通过

文章图片
#机器学习#支持向量机#人工智能 +4
百度开源文心一言4.5:论文解读和使用入门

百度ERNIE团队发布ERNIE4.5模型家族,包含10种多模态模型变体,涵盖47B和3B参数的MoE模型及424B总参数模型。该系列采用异构模态结构和模态隔离路由机制,支持跨模态参数共享,同时保持各模态独立性。模型在指令遵循、知识记忆、视觉理解等任务上达到SOTA性能。

文章图片
#百度#开源#人工智能 +2
Qwen3:重磅开源,重夺开源第一!(包含详细使用教程)

Qwen3 代表了人类在通往通用人工智能(AGI)和超级人工智能(ASI)旅程中的一个重要里程碑。通过扩大预训练和强化学习的规模,之子实现了更高层次的智能。作者无缝集成了思考模式与非思考模式,为用户提供了灵活控制思考预算的能力。此外,作者还扩展了对多种语言的支持,帮助全球更多用户。

文章图片
#人工智能#python#语言模型 +1
Qwen3-VL:开源最强多模态大模型(架构解析及使用代码)

Qwen3-VL是阿里巴巴开发的新一代视觉语言模型,支持256K tokens的交错上下文处理,包含稠密型和混合专家型变体。其核心优势包括强大的文本理解能力、稳健的长上下文处理以及先进的多模态推理能力。模型通过增强型交错MRoPE、DeepStack集成和文本基视频时间对齐三大升级优化时空建模。训练采用四阶段预训练和SFT、知识蒸馏、RL后训练流程,在多模态任务中表现卓越。评估显示Qwen3-VL

文章图片
#人工智能#深度学习#语言模型 +2
西瓜书《机器学习》全网最详细解读 第一章:绪论

《机器学习》,又称西瓜书,是南京大学教授周志华教授编著的一本机器学习领域的经典教材。在接下来的日子里,我将每周精心打磨一章内容,全方位、多角度地为大家剖析书中精髓。

文章图片
#机器学习#人工智能#改行学it +3
GT-RL:首个让机器人学会系鞋带的VLA

字节跳动Seed团队提出GR-RL框架,解决了机器人长程精密操作难题。该框架通过强化学习增强的多阶段训练流程,将通用视觉-语言-动作模型转化为专家型政策,成功实现机器人自主系鞋带任务,成功率高达83.3%。GR-RL采用混合Transformer架构,包含策略网络和评论家网络,通过数据过滤、形态对称性增强和在线强化学习优化,有效解决了人类演示数据噪声、训练-部署不匹配等问题。实验表明,GR-RL在

文章图片
#机器人#人工智能#计算机视觉 +1
Hunyuan-video:混元视频生成模型,开源最强视频生成模型(包含论文代码详解)

缩小闭源和开源视频基础模型之间的差距,加速社区探索。”——混元团队Hunyuan-Video是由腾讯推出的一款高质量的中文通用视频生成模型,它以其卓越的性能和开源的特性,成为了目前开源视频生成基座模型中的佼佼者。该模型支持中文输入提示(Prompt),采用了图像-视频联合训练策略,并通过一系列精细的数据过滤技术,确保了视频的技术质量和审美吸引力。Hunyuan-Video的开源,为视频内容创作者、

文章图片
#音视频#开源
Deepseek新架构:Engram全面解析(论文代码详解)

稀疏性” 是贯穿生物神经网络(如人脑神经元的稀疏激活)和现代大语言模型(LLMs)的关键设计思路 —— 核心是 “不激活所有参数,仅用部分资源完成任务”,从而在提升模型容量的同时控制计算成本。当前 LLM 中,稀疏性主要通过混合专家模型(MoE)实现:MoE 将模型拆分为多个 “专家网络”,每个 token 仅激活少数专家(如 Top-6),实现 “参数规模暴涨但计算量不按比例增加”。正因如此,M

文章图片
#架构#人工智能#自然语言处理 +3
    共 82 条
  • 1
  • 2
  • 3
  • 9
  • 请选择