
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
模型结合动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,可精准解析文本、表格、公式、图表等复杂文档结构,同时支持 109 种语言。依托高效量化技术与推理优化策略,SmolLM3-3B 能在资源受限的设备上稳定运行,并在多项任务中实现接近更大模型的表现,非常适合本地化部署与移动端 AI 应用落地。DeePMD-kit_Example 是 DeePMD-kit 提供的官方示例集,涵盖多

通过在流式推理过程中复用历史上下文的中间状态,实现对连续音频流的高效处理,保持识别精度的同时显著降低了端到端延迟,支持在推理阶段动态选择不同的延迟与精度权衡点。Fun-ASR-Nano 是由阿里巴巴通义实验室推出的面向低算力部署的端到端大模型 ASR 方案:由 Transformer 音频编码器、连接编码器与 LLM 的 音频适配器、用于生成初始假设的 CTC 解码器,以及最终输出文本的 LLM

VibeVoice-Realtime TTS 采用一种新颖的次令牌扩散方法,用于在长篇多说话者语音合成中建模连续数据,并引入高效的连续语音分词器,使模型能够在 64K 上下文窗口内生成长达 90 分钟的语音,最多支持 4 名说话者,同时在保持音频忠实度的前提下大幅提升计算效率,捕捉真实对话氛围。该数据集共包含 600 条测试样本,每条样本都包含完整的输入信息与元数据,包括唯一标识、图像或文本输入、

在图生视频任务中,LongCat-Video 在视觉质量上值得关注,得分领先 Wan2.2 等其他模型,表明其在生成画面质量方面的突出优势。在这一框架中,视频生成模型通过其生成过程,逐步压缩并学习几何、语义、物理等多种知识形态,将示例图片上传后,输入 Prompt,在「Advanced Options」中可以对生成视频的负面提示词、分辨率、生成过程的随机性起点等参数进行更多设置,以实现更理想的生成

进入 Demo 运行页面后,在「Reference Audio」上传参考音频,在「Reference Text」文本框中输入参考文本,将克隆后希望得到的音频文本内容输入「Text to Generate」,点击「Submit」后稍等片刻即可得到克隆音频。NeuTTS-Air 的发布,正值行业对高效、低延迟、高逼真度 TTS 需求激增之际,尤其是在端侧部署(On-Device)和即时语音克隆领域,它

MedGemma 4B 多模态版本采用了 SigLIP 图像编码器,该编码器经过专门预训练,使用的数据涵盖去标识化的医学图像,包括胸部 X 光、皮肤病图像、眼科图像和组织病理切片。在 Google I/O 2025 大会上,公司 CEO Sundar Pichai 在活动首日的主题演讲中便分享了多项创新,例如 Gemini 2.5 的全系列升级,Agent Mode 上线 Chrome,编码智能体

聚焦官方给出的数据,这个非思考模式(non-thinking mode)的新模型,将长文本理解能力提升至 256K,仅激活 3B 参数,就能取得可媲美 Gemini 2.5-Flash(non-thinking)、GPT-4o 等顶尖闭源模型的超强性能。1.最近极端天气频发,北京接连暴雨后,上海又迎来了台风,让我们来问问 Qwen3-30B-A3B-Instruct-2507 上海台风和北京暴雨的

SAM(Segment Anything Model)是 Meta 于 2023 年 4 月发布的人工智能通用模型,提出了针对图像和视频的可提示分割任务,主要支持基于点、框或掩码的提示来分割单个目标。将测试视频上传后,在「Text Prompt(s)」处输入需要识别分割的名词短语,依次点击「Apply Text Prompt(s)」「Propagate across video」以应用提示词,最后

基于基础模型 Qwen3-30B-A3B-Thinking 进行系统化后训练得到,并以开源形式发布在 Hugging Face 等平台,其采用一系列后训练技巧,包括长上下文数据合成管线、面向长序列的稳定强化学习和记忆增强的超长上下文框架,在长上下文基准测试中表现更为优秀,同时,这些能力也迁移到了通用领域任务,包括数学推理、工具使用以及长对话一致性等。该模型以单张输入图像为条件,通过多阶段扩散与结构

模型无需重新训练底座模型,仅通过加载少量权重即可改善面部结构、肤质纹理与整体光影效果,在保持推理效率与显存占用的同时获得更自然的人像生成结果,适用于写真级人像生成与高质量人物图像创作。通过 vLLM 与 Open WebUI 的组合部署,可快速构建 OpenAI API 兼容的本地推理服务,在保证性能的同时降低部署复杂度,适用于企业私有化部署与内部智能助手系统。模型采用自回归语音生成架构与分层声码








