logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DiffVox 打造下一代声效模型;面部情感识别数据集让 AI 读心术成真!

模型结合动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,可精准解析文本、表格、公式、图表等复杂文档结构,同时支持 109 种语言。依托高效量化技术与推理优化策略,SmolLM3-3B 能在资源受限的设备上稳定运行,并在多项任务中实现接近更大模型的表现,非常适合本地化部署与移动端 AI 应用落地。DeePMD-kit_Example 是 DeePMD-kit 提供的官方示例集,涵盖多

文章图片
#人工智能#深度学习#机器学习 +1
Nemotron Speech ASR低延迟英文实时转写的语音识别服务;GLM-Image开源混合自回归与扩散解码架构的图像生成模型

通过在流式推理过程中复用历史上下文的中间状态,实现对连续音频流的高效处理,保持识别精度的同时显著降低了端到端延迟,支持在推理阶段动态选择不同的延迟与精度权衡点。Fun-ASR-Nano 是由阿里巴巴通义实验室推出的面向低算力部署的端到端大模型 ASR 方案:由 Transformer 音频编码器、连接编码器与 LLM 的 音频适配器、用于生成初始假设的 CTC 解码器,以及最终输出文本的 LLM

文章图片
#语音识别#架构#人工智能 +2
VibeVoice-Realtime TTS重构实时语音体验;覆盖9大真实场景,WenetSpeech-Chuan让模型听懂川话

VibeVoice-Realtime TTS 采用一种新颖的次令牌扩散方法,用于在长篇多说话者语音合成中建模连续数据,并引入高效的连续语音分词器,使模型能够在 64K 上下文窗口内生成长达 90 分钟的语音,最多支持 4 名说话者,同时在保持音频忠实度的前提下大幅提升计算效率,捕捉真实对话氛围。该数据集共包含 600 条测试样本,每条样本都包含完整的输入信息与元数据,包括唯一标识、图像或文本输入、

文章图片
#人工智能#深度学习#视频生成
教程上新丨美团开源视频生成模型LongCat-Video,兼具文生视频/图生视频/视频续写三大能力,媲美开闭源顶尖模型

在图生视频任务中,LongCat-Video 在视觉质量上值得关注,得分领先 Wan2.2 等其他模型,表明其在生成画面质量方面的突出优势。在这一框架中,视频生成模型通过其生成过程,逐步压缩并学习几何、语义、物理等多种知识形态,将示例图片上传后,输入 Prompt,在「Advanced Options」中可以对生成视频的负面提示词、分辨率、生成过程的随机性起点等参数进行更多设置,以实现更理想的生成

文章图片
#音视频#人工智能#深度学习 +2
教程上新丨端侧TTS新SOTA!NeuTTS-Air基于0.5B模型实现3秒音频克隆

进入 Demo 运行页面后,在「Reference Audio」上传参考音频,在「Reference Text」文本框中输入参考文本,将克隆后希望得到的音频文本内容输入「Text to Generate」,点击「Submit」后稍等片刻即可得到克隆音频。NeuTTS-Air 的发布,正值行业对高效、低延迟、高逼真度 TTS 需求激增之际,尤其是在端侧部署(On-Device)和即时语音克隆领域,它

文章图片
#音视频#人工智能#深度学习 +2
OpenBayes 教程上新丨谷歌发布 MedGemma,基于 Gemma 3 构建,专攻医学文本与图像理解

MedGemma 4B 多模态版本采用了 SigLIP 图像编码器,该编码器经过专门预训练,使用的数据涵盖去标识化的医学图像,包括胸部 X 光、皮肤病图像、眼科图像和组织病理切片。在 Google I/O 2025 大会上,公司 CEO Sundar Pichai 在活动首日的主题演讲中便分享了多项创新,例如 Gemini 2.5 的全系列升级,Agent Mode 上线 Chrome,编码智能体

文章图片
#人工智能#深度学习
OpenBayes 教程上新丨仅激活 3B 参数可媲美 GPT-4o,Qwen3 深夜更新,一手实测来了!

聚焦官方给出的数据,这个非思考模式(non-thinking mode)的新模型,将长文本理解能力提升至 256K,仅激活 3B 参数,就能取得可媲美 Gemini 2.5-Flash(non-thinking)、GPT-4o 等顶尖闭源模型的超强性能。1.最近极端天气频发,北京接连暴雨后,上海又迎来了台风,让我们来问问 Qwen3-30B-A3B-Instruct-2507 上海台风和北京暴雨的

文章图片
#人工智能#机器学习
教程上新丨30毫秒处理100个检测对象,SAM 3实现可提示概念分割,性能提升2倍

SAM(Segment Anything Model)是 Meta 于 2023 年 4 月发布的人工智能通用模型,提出了针对图像和视频的可提示分割任务,主要支持基于点、框或掩码的提示来分割单个目标。将测试视频上传后,在「Text Prompt(s)」处输入需要识别分割的名词短语,依次点击「Apply Text Prompt(s)」「Propagate across video」以应用提示词,最后

文章图片
#人工智能#深度学习#机器学习 +2
Qwen-Image-2512升级图像真实感与可用性;Open Schematics数据集为AI提供电路新理解

基于基础模型 Qwen3-30B-A3B-Thinking 进行系统化后训练得到,并以开源形式发布在 Hugging Face 等平台,其采用一系列后训练技巧,包括长上下文数据合成管线、面向长序列的稳定强化学习和记忆增强的超长上下文框架,在长上下文基准测试中表现更为优秀,同时,这些能力也迁移到了通用领域任务,包括数学推理、工具使用以及长对话一致性等。该模型以单张输入图像为条件,通过多阶段扩散与结构

文章图片
#人工智能#机器学习#目标检测 +1
HY-MT1.5-1.8B 支持多语言神经机器翻译;Med-Banana-50K 提供医学影像编辑基准数据

模型无需重新训练底座模型,仅通过加载少量权重即可改善面部结构、肤质纹理与整体光影效果,在保持推理效率与显存占用的同时获得更自然的人像生成结果,适用于写真级人像生成与高质量人物图像创作。通过 vLLM 与 Open WebUI 的组合部署,可快速构建 OpenAI API 兼容的本地推理服务,在保证性能的同时降低部署复杂度,适用于企业私有化部署与内部智能助手系统。模型采用自回归语音生成架构与分层声码

文章图片
#机器翻译#人工智能#自然语言处理 +1
    共 36 条
  • 1
  • 2
  • 3
  • 4
  • 请选择