logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【AI大模型前沿】MedASR:谷歌开源的高精度医疗语音识别模型

MedASR 是一款基于 Conformer 架构的医疗语音识别模型,拥有 105M 参数,经过约 5000 小时的医学语音数据预训练,涵盖放射学、内科、全科等多种医学专业领域的语音内容。它能够精准识别复杂医学术语和专业上下文,为开发者提供可定制化的基础模型,适用于医学口述转录、临床对话记录、多模态医疗应用开发等多种场景。

文章图片
#人工智能#开源#语音识别 +3
【AI大模型前沿】Mistral 3:欧洲开源力量的AI力作,多模态与高性能的完美融合

Mistral 3是Mistral AI推出的新一代开源AI模型系列,包括小型的Ministral 3(3B、8B、14B参数)和大型的Mistral Large 3(675B总参数,41B激活参数)。该系列模型支持多模态(文本和图像)与多语言功能,具有高性能和高性价比,在多种硬件上可高效运行,适用于边缘计算、企业级部署等多种场景。

文章图片
#人工智能#开源#AIGC +2
【AI大模型前沿】NVIDIA Nemotron Speech ASR:低延迟实时语音识别的开源利器

Nemotron Speech ASR是一个开源的低延迟实时语音识别模型,专为英语流式转录设计。它采用缓存感知的FastConformer编码器和RNNT解码器,能够处理16kHz单声道音频,输入块至少为80毫秒。该模型支持多种推理时间块配置,可在不重新训练的情况下灵活调整延迟与准确性之间的平衡,适用于语音助手、实时翻译、会议记录等多种场景。

文章图片
#人工智能#语音识别#开源 +3
【GitHub开源AI精选】AutoMV:开源多智能体音乐视频生成系统,开启AI创作新时代

AutoMV是一个无需训练的多智能体系统,能够直接从完整歌曲生成连贯的音乐视频。它通过音乐信息检索提取歌曲的关键特征,如节拍、结构和歌词时间戳,然后由编剧和导演智能体协作生成剧本和拍摄计划,最终通过生成模块和验证模块完成视频制作并确保质量。这一创新的系统不仅实现了从音频和歌词到完整音乐视频的端到端生成,还具备高效、低成本和高质量的特点。

文章图片
#开源#人工智能#AIGC +1
【GitHub开源AI精选】ViMax:香港大学开源的多智能体视频生成框架,一键实现创意到视频的跨越

ViMax 是一个端到端的多智能体视频生成框架,整合了导演、编剧、制片人和视频生成器的功能。它支持 Idea2Video、Novel2Video、Script2Video 和 AutoCameo 等模式,能够生成分钟级长视频并保持人物与场景一致性。通过智能分镜、多摄像机模拟和自动化一致性检测等技术,ViMax 实现了从创意到成片的高效自动化流程。

文章图片
#开源#人工智能#AIGC +1
【AI大模型前沿】阿里通义FunCineForge开源:首个影视级多模态配音大模型,支持零样本电影配音与多场景音色迁移

FunCineForge是由阿里巴巴通义实验室(Tongyi Lab)语音团队与中国科学技术大学联合研发的开源项目,定位为端到端的影视级多模态配音系统。该项目包含两大核心组件:一是完整的数据集生产流水线,可自动化构建大规模多模态配音数据集;二是基于多模态大语言模型(MLLM)架构的配音模型,专门面向复杂影视场景设计。与传统配音流程不同,FunCineForge整合了视频理解、语音合成、时间对齐等多

文章图片
#人工智能#开源#AIGC +2
【AI大模型前沿】Covo-Audio:腾讯开源70亿参数端到端语音大模型,GPT-4o级全双工对话能力

Covo-Audio是腾讯开源的70亿参数端到端音频语言模型(LALM),基于Qwen2.5-7B和Whisper-large-v3构建,通过统一架构直接处理连续音频输入并生成音频输出。模型采用分层三模态语音-文本交错架构、智能与说话人解耦技术,以及原生全双工交互能力,在口语对话、语音理解、音频理解等任务中达到同规模模型领先或竞争优势。作为完全开源的GPT-4o语音能力替代方案,Covo-Audi

文章图片
#人工智能#开源#AIGC +2
【AI大模型前沿】FireRed-OCR:小红书开源的2B参数文档结构解析专家,以小模型大能力登顶OmniDocBench SOTA

**FireRed-OCR**是小红书团队开源的端到端文档结构解析视觉语言模型,基于Qwen3-VL-2B-Instruct架构构建,采用创新的"三阶段渐进优化"训练策略与"几何+语义"数据工厂,专为攻克文档解析中的"结构幻觉"问题而设计。该模型能够将PDF、扫描图像、学术论文、财务报告等复杂版式文档精准转换为标准Markdown格式,支持复杂表格提取、数学公式语义化解析、多级标题层级重建等核心能

文章图片
#人工智能#开源#AIGC +2
【AI大模型前沿】微软Phi-4-reasoning-vision-15B:150亿参数多模态推理模型的效率革命与训练实践

**Phi-4-reasoning-vision-15B**是微软研究院推出的开源多模态推理模型,基于Phi-4-Reasoning语言模型骨干,融合SigLIP-2视觉编码器,采用中期融合(Mid-Fusion)架构,在保持150亿参数紧凑体量的同时,实现了数学科学推理、GUI界面理解、图文问答等多维能力的均衡突破。该模型通过严格的数据筛选、动态分辨率处理与混合推理训练策略,在计算效率与推理精度

文章图片
#人工智能#开源#AIGC +2
【GitHub开源AI精选】小红书FireRedASR2S开源发布:集成ASR/VAD/LID/Punc四大模块的工业级语音识别系统

FireRedASR2S是小红书Super Intelligence-AudioLab开源的工业级一体化语音识别系统,集成ASR(自动语音识别)、VAD(语音活动检测)、LID(语种识别)和Punc(标点预测)四大核心模块,支持普通话、20余种方言、英语、中英混合、代码语音及歌词识别,在24个测试集上平均字错率低至9.67%,达到当前开源领域SOTA水平。该系统采用模块化架构设计,各组件既可协同工

文章图片
#人工智能#开源#语音识别 +2
    共 99 条
  • 1
  • 2
  • 3
  • 10
  • 请选择