logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

调查研究-169 开源 TTS 模型横向对比:从“能发声“到“可部署的语音智能基础设施“(2026 版)

2026 年的开源 TTS 已经从"能发声"演进为"可部署的语音智能基础设施"。本文对九款主流开源 / 开放权重 TTS 模型做横向比较,包括 OpenBMB 的 VoxCPM2(2B 参数、30 种语言、48kHz 录音棚级音质、Apache-2.0 可商用、RTF 低至 0.13、官方支持 vLLM-Omni)、阿里 Qwen3-TTS(2026 年 1 月 22 日开源、1.7B / 0.6

文章图片
#人工智能#AI#ChatGPT
调查研究-168 MiroFish 本地化部署分析:主仓库、Zep Cloud、离线 Fork 与真正可控的多智能体沙盘

MiroFish是一个多智能体社会仿真系统,能够基于用户上传的种子材料构建数字世界,通过智能体之间的互动模拟复杂事件的发展。其核心架构包括前端界面、Flask后端、大模型调用层、图谱与记忆层以及仿真层。虽然MiroFish支持通过本地LLM(如vLLM、Ollama)实现部分本地化,但其默认依赖Zep Cloud进行图谱和记忆存储,限制了完全本地化部署的可能性。社区提出了两种解决方案:一是主仓库结

文章图片
#人工智能#AI#ChatGPT +1
调查研究-166 VoxCPM 详解:一个值得重点关注的开源 TTS 项目

VoxCPM2是OpenBMB推出的开源TTS系统,采用tokenizer-free的连续语音表示方案,避免传统离散token化带来的信息损失。核心能力包括基础TTS、声音设计(通过自然语言描述生成特定声音)、声音克隆(基于参考音频模仿音色)以及多语言和方言支持。技术架构将文本理解、语义规划、声学细节和波形还原分开处理,输出48kHz高质量音频。提供Python包、NanoVLLM高吞吐推理和vL

文章图片
#开源#人工智能#AI +1
调查研究-165 vLLM 深入浅出:从 PagedAttention 到生产级大模型推理服务

vLLM 是一个面向生产环境的高效大模型推理引擎,核心解决了大模型部署中的显存管理、批处理和接口兼容问题。它通过 PagedAttention 技术将 KV Cache 分块管理,显著提高显存利用率;采用连续批处理动态调度请求,提升 GPU 使用率;并提供 OpenAI 兼容 API,便于业务集成。 文章系统介绍了 vLLM 的技术原理(KV Cache 优化、PagedAttention、连续批

文章图片
#人工智能#数据库#AI +2
调查研究-164-NVIDIA DGX Station for Windows 解析:不是新显卡,而是企业本地 AI 超算

NVIDIA发布DGX Station for Windows,将数据中心级AI超算能力引入企业办公环境。这款桌边AI超级计算机搭载GB300 Grace Blackwell Ultra芯片,提供20 PFLOPS FP4算力和748GB一致性内存,支持1万亿参数模型的本地推理和微调。不同于消费级显卡,它专为企业AI Agent部署、大模型推理、数据科学等场景设计,通过Windows+WSL实现企

文章图片
#人工智能#AI#ChatGPT +1
调查研究-164-NVIDIA DGX Station for Windows 解析:不是新显卡,而是企业本地 AI 超算

NVIDIA发布DGX Station for Windows,将数据中心级AI超算能力引入企业办公环境。这款桌边AI超级计算机搭载GB300 Grace Blackwell Ultra芯片,提供20 PFLOPS FP4算力和748GB一致性内存,支持1万亿参数模型的本地推理和微调。不同于消费级显卡,它专为企业AI Agent部署、大模型推理、数据科学等场景设计,通过Windows+WSL实现企

文章图片
#人工智能#AI#ChatGPT +1
调查研究-164-NVIDIA DGX Station for Windows 解析:不是新显卡,而是企业本地 AI 超算

NVIDIA发布DGX Station for Windows,将数据中心级AI超算能力引入企业办公环境。这款桌边AI超级计算机搭载GB300 Grace Blackwell Ultra芯片,提供20 PFLOPS FP4算力和748GB一致性内存,支持1万亿参数模型的本地推理和微调。不同于消费级显卡,它专为企业AI Agent部署、大模型推理、数据科学等场景设计,通过Windows+WSL实现企

文章图片
#人工智能#AI#ChatGPT +1
调查研究-163-MiniMax M3 正式发布:1M 上下文、多模态、Coding Agent 与 Sparse Attention 到底意味着什么?

MiniMax M3是一款面向编码和智能体场景的新一代语言模型,支持1M tokens的长上下文窗口和原生多模态输入。其核心技术是MiniMax Sparse Attention(MSA),通过两步式稀疏注意力机制降低长上下文计算成本。M3强调工程闭环能力,适用于代码仓库理解、长文档分析和多轮任务执行。官方称其为"open-weight"模型,但商用授权条款仍需确认。该模型将前沿的Coding A

文章图片
#人工智能#ChatGPT#AI
调查研究-162 Anthropic 抢跑 OpenAI 提交 SEC 保密 IPO 申请:AI 资本市场的主导权正在换手

2026 年 5 月 28 日,AI 独角兽 Anthropic 宣布完成 650 亿美元 Series H 融资,投后估值达到 9650 亿美元,首次在公开披露口径上反超 OpenAI 的 8520 亿美元(2026 年 3 月 31 日完成的 1220 亿美元融资对应估值);本轮由 Altimeter Capital、Dragoneer、Greenoaks 和红杉资本领投,亚马逊承诺 50 亿

文章图片
#人工智能#大数据#AI +1
调查研究-161 OpenAI AI 设备揭秘:这不是手机,而是下一代入口实验

2026 年 6 月 3 日,OpenAI 首席财务官 Sarah Friar 在 All-In 峰会上确认,公司与苹果前首席设计官 Jony Ive 联合打造的消费者 AI 硬件设备已进入内部测试阶段,计划于 2026 年底至 2027 年初正式发布。这款内部代号 "Sweet Pea"(甜豌豆)的设备由 Jony Ive 创立的 LoveFrom 团队主导设计,主打语音 AI 交互,极大概率是

文章图片
#人工智能#AI#深度学习 +1
    共 39 条
  • 1
  • 2
  • 3
  • 4
  • 请选择