
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
InfinityStar是由字节跳动(FoundationVision)推出的一款高效视频生成模型。它通过统一的时空自回归框架,实现了高分辨率图像和动态视频的快速合成。该模型采用纯离散方法,将视频分解为序列片段,有效解耦外观和动态信息,从而提升生成效率。InfinityStar不仅支持文本到图像、文本到视频等多种生成任务,还能在单GPU上实现分钟级生成720p视频,是视频生成领域的重要进展。

FLM-Audio 是一个具有革命性的音频对话大模型,它采用原生全双工架构,能够在每个时间步同时处理听觉、说话和独白通道的输入,从而实现低延迟、高自然度的全双工对话交互。该模型通过创新的自然独白和双重训练范式,有效解决了传统模型在语音对齐和交互流畅性上的难题,仅用约 100 万小时的音频数据就训练出了拥有 70 亿参数的强大模型,展现出卓越的鲁棒性和适应能力。

Logics-Parsing 是阿里巴巴开源的一款基于 Qwen2.5-VL-7B 的端到端文档解析模型。该模型通过监督微调(SFT)和以布局为中心的强化学习(LC-RL)两阶段训练,能够将 PDF 图像直接转换为结构化的 HTML 输出。这一过程不仅简化了文档解析流程,还极大地提升了对复杂文档的处理能力。Logics-Parsing 的设计目标是解决传统文档解析方法在处理复杂布局和高级内容类型时

Ouro是一个循环语言模型(Looped Language Models,简称LoopLM),其名称来源于象征循环与自我吞噬的“衔尾蛇”(Ouroboros)。该模型通过在潜在空间中进行迭代计算,将推理能力直接构建到预训练阶段,而非仅依赖后期微调。Ouro采用两阶段自适应计算训练策略,展现出卓越的参数效率。其1.4B和2.6B参数规模的模型在各类基准测试中,性能媲美甚至超越了规模大得多的SOTA

Ming-UniAudio 是蚂蚁集团开源的一个创新语音处理项目,旨在通过统一的连续语音分词器 MingTok-Audio 和端到端的语音语言模型,实现语音理解、生成和编辑任务的高效融合。MingTok-Audio 基于 VAE 框架和因果 Transformer 架构,能够有效整合语义和声学特征,为语音理解和生成任务提供统一的表示。在此基础上,Ming-UniAudio 开发了一个端到端的语音语

Coze Studio是由字节跳动开源的AI智能体开发平台,旨在为开发者提供一个从开发到部署的全流程支持环境。它集成了Prompt、RAG、Plugin、Workflow等核心技术,通过可视化工作流编排,支持零代码或低代码开发复杂AI应用。平台内置插件框架,可将第三方API或私有能力封装为插件,扩展智能体功能。Coze Studio采用Golang和React开发,遵循领域驱动设计(DDD)原则,

Parlant是一个开源的LLM代理行为建模引擎,旨在帮助开发者快速创建符合业务要求的对话式代理。它通过自然语言规则定义来确保AI代理的行为符合业务逻辑,解决了传统AI代理在实际使用中忽略系统提示、产生幻觉式回答、无法一致处理边缘情况等问题。Parlant支持多种LLM提供商,如OpenAI和Anthropic,并提供了丰富的企业级功能,如对话分析、迭代改进和内置防护栏等。

NeuTTS Air是由Neuphonic开发的一款超拟真、可离线运行的文本到语音(TTS)模型。它以0.5B参数的Qwen语言模型为基础,结合自研的NeuCodec音频编解码器,实现了在本地设备上的高效语音合成。NeuTTS Air不仅能够生成自然流畅、接近真人的语音,还具备即时语音克隆功能,仅需3秒音频样本即可精准复刻说话者的声音。其紧凑的架构设计使其在性能、速度和质量之间达到了绝佳的平衡,能

Qianfan-VL 是百度智能云千帆专为企业级多模态应用场景打造的视觉理解大模型,提供 3B、8B 和 70B 三种规格,具备出色的通用能力,并针对 OCR、教育等垂直领域进行了专项强化,能够精准满足不同场景下的多模态理解需求。

Ling-1T 是基于 Ling 2.0 架构的万亿参数非思考模型,其设计目标是实现高效的推理和强大的认知能力。该模型在 20T+ token 的高质量、高推理浓度语料上完成预训练,支持最高 128K 的上下文窗口,并通过“中训练+后训练”的演进式思维链(Evo-CoT)方法,极大地提升了模型的推理效率和准确性。Ling-1T 在多项复杂推理基准测试中取得了 SOTA 表现,展现出在高效思考与精确








