
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
GLM-4.7是由智谱AI开发的开源大语言模型,专注于提升编码能力、推理能力和工具协同能力。它在多语言编程、复杂任务规划、前端设计美学等方面表现出色,支持多种编程框架,如Claude Code等。GLM-4.7引入了交错式、保留式和轮级思考模式,显著提升了复杂任务的执行稳定性和可控性。

GLM-4.6V是智谱AI与清华大学联合推出的多模态大模型系列,旨在实现高保真视觉理解和长上下文推理。该系列包含基础版GLM-4.6V(106B参数,12B激活)和轻量版GLM-4.6V-Flash(9B参数),支持长达128K tokens的上下文,并首次将原生多模态函数调用能力融入视觉模型,实现了从视觉感知到可执行行动的闭环。

GLM-TTS 是智谱 AI 开发的零样本语音合成系统,基于大型语言模型,支持零样本语音克隆和流式推理。该系统采用两阶段架构,结合 LLM 生成语音 Token 和 Flow Matching 模型合成波形。通过引入多奖励强化学习框架,GLM-TTS 在情感表达和语音自然度上显著优于传统 TTS 系统。

在IT行业,成为超级个体并非遥不可及的梦想。关键在于发现并解决他人的痛点,将你的专业知识和技能转化为他人愿意为之付费的产品或服务。只要敢于创新,勇于实践,你的技术和想法就能在这个充满机遇的行业中找到自己的市场定位。现在就开始吧,让你的知识价值最大化,开辟属于你自己的IT超级个体之路!

GLM-ASR是由智谱AI开发的开源语音识别模型系列,包括云端的GLM-ASR-2512和开源的GLM-ASR-Nano-2512。该系列模型基于深度学习架构,针对语音识别任务进行优化,不仅在理想环境下表现出色,更注重在复杂声学环境下的鲁棒性。GLM-ASR-Nano-2512采用1.5B参数,通过特定的训练策略,覆盖多噪声、多口音、低音量以及中文方言等复杂语音样本,使其在实际应用中表现出色。

DeepSeek-Math-V2 是一个专注于数学推理的开源大语言模型,由 DeepSeek 团队开发。它基于 DeepSeek-V3.2-Exp-Base 构建,采用验证器 - 生成器协同进化的训练方式,通过自我验证机制显著提升了数学定理证明和推理的严谨性。该模型在国际数学奥林匹克竞赛(IMO)、中国数学奥林匹克竞赛(CMO)和普特南数学竞赛(Putnam)等权威基准测试中表现出色,接近满分水平

Depth Anything 3(DA3)是字节跳动Seed团队推出的一种视觉空间重建模型,能够从任意数量的视觉输入(包括单张图片、多视角图像或视频流)中恢复出三维空间的几何结构。该模型采用单一的Transformer架构,无需复杂的多任务训练或定制化架构设计,通过“深度-射线”表征法,实现了从单目深度估计到多视角几何重建的统一。

Z-Image是一个具有60亿参数的高效图像生成基础模型,通过系统优化,在照片级真实感图像生成和中英双语文本渲染方面表现出色,其性能可与顶级商业模型相媲美。它包含三个主要变体:Z-Image-Turbo、Z-Image-Base和Z-Image-Edit,分别专注于快速推理、基础开发和图像编辑。

MiMo-Embodied是由小米具身智能团队开发的开创性跨领域具身基础模型,是首个成功整合自动驾驶和具身智能两大领域的开源视觉语言模型(VLM)。该模型在环境感知、任务规划、空间理解等多方面展现出卓越性能,覆盖了17个具身智能基准测试和12个自动驾驶基准测试,显著超越了现有的开源、闭源以及领域专用模型。

MiMo-Embodied是由小米具身智能团队开发的开创性跨领域具身基础模型,是首个成功整合自动驾驶和具身智能两大领域的开源视觉语言模型(VLM)。该模型在环境感知、任务规划、空间理解等多方面展现出卓越性能,覆盖了17个具身智能基准测试和12个自动驾驶基准测试,显著超越了现有的开源、闭源以及领域专用模型。








