
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Logics-Parsing 是阿里巴巴开源的一款基于 Qwen2.5-VL-7B 的端到端文档解析模型。该模型通过监督微调(SFT)和以布局为中心的强化学习(LC-RL)两阶段训练,能够将 PDF 图像直接转换为结构化的 HTML 输出。这一过程不仅简化了文档解析流程,还极大地提升了对复杂文档的处理能力。Logics-Parsing 的设计目标是解决传统文档解析方法在处理复杂布局和高级内容类型时

Logics-Parsing 是阿里巴巴开源的一款基于 Qwen2.5-VL-7B 的端到端文档解析模型。该模型通过监督微调(SFT)和以布局为中心的强化学习(LC-RL)两阶段训练,能够将 PDF 图像直接转换为结构化的 HTML 输出。这一过程不仅简化了文档解析流程,还极大地提升了对复杂文档的处理能力。Logics-Parsing 的设计目标是解决传统文档解析方法在处理复杂布局和高级内容类型时

GLM-4.6是智谱AI推出的最新旗舰级文本模型,总参数量达到355B,激活参数为32B。该模型在所有核心能力上均超越了前代GLM-4.5,特别是在代码能力、上下文长度、推理能力、搜索能力、写作能力和多语言翻译等方面实现了显著提升。GLM-4.6在多个权威基准测试中表现出色,与国际顶尖模型如Claude Sonnet 4相媲美,稳居国产模型首位。

GLM-4.6是智谱AI推出的最新旗舰级文本模型,总参数量达到355B,激活参数为32B。该模型在所有核心能力上均超越了前代GLM-4.5,特别是在代码能力、上下文长度、推理能力、搜索能力、写作能力和多语言翻译等方面实现了显著提升。GLM-4.6在多个权威基准测试中表现出色,与国际顶尖模型如Claude Sonnet 4相媲美,稳居国产模型首位。

DeepSeek-V3.2-Exp是DeepSeek-AI于2025年9月29日发布的实验性大语言模型,旨在探索和验证在长上下文场景下训练和推理效率的优化。该模型基于V3.1-Terminus构建,引入了创新的DeepSeek稀疏注意力(DSA)机制,实现了细粒度稀疏注意力,突破了传统Transformer架构的限制。在多个公开基准测试中,DeepSeek-V3.2-Exp的性能与V3.1-Ter

DeepSeek-V3.2-Exp是DeepSeek-AI于2025年9月29日发布的实验性大语言模型,旨在探索和验证在长上下文场景下训练和推理效率的优化。该模型基于V3.1-Terminus构建,引入了创新的DeepSeek稀疏注意力(DSA)机制,实现了细粒度稀疏注意力,突破了传统Transformer架构的限制。在多个公开基准测试中,DeepSeek-V3.2-Exp的性能与V3.1-Ter

FLM-Audio 是一个具有革命性的音频对话大模型,它采用原生全双工架构,能够在每个时间步同时处理听觉、说话和独白通道的输入,从而实现低延迟、高自然度的全双工对话交互。该模型通过创新的自然独白和双重训练范式,有效解决了传统模型在语音对齐和交互流畅性上的难题,仅用约 100 万小时的音频数据就训练出了拥有 70 亿参数的强大模型,展现出卓越的鲁棒性和适应能力。

FLM-Audio 是一个具有革命性的音频对话大模型,它采用原生全双工架构,能够在每个时间步同时处理听觉、说话和独白通道的输入,从而实现低延迟、高自然度的全双工对话交互。该模型通过创新的自然独白和双重训练范式,有效解决了传统模型在语音对齐和交互流畅性上的难题,仅用约 100 万小时的音频数据就训练出了拥有 70 亿参数的强大模型,展现出卓越的鲁棒性和适应能力。

Qwen3-TTS-Flash 是阿里通义团队精心打造的一款旗舰级文本转语音(TTS)模型,继承了 Qwen 系列模型的先进 AI 技术,专注于提供高效、高质量的语音合成服务。它具备强大的多语言和多方言支持能力,涵盖多种主流语言和方言,能够满足不同地区和场景下的语言需求。同时,模型生成的语音自然流畅,富有表现力,能根据文本内容自动调节语气,让语音更贴近人类表达。

Qwen3-TTS-Flash 是阿里通义团队精心打造的一款旗舰级文本转语音(TTS)模型,继承了 Qwen 系列模型的先进 AI 技术,专注于提供高效、高质量的语音合成服务。它具备强大的多语言和多方言支持能力,涵盖多种主流语言和方言,能够满足不同地区和场景下的语言需求。同时,模型生成的语音自然流畅,富有表现力,能根据文本内容自动调节语气,让语音更贴近人类表达。








