logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

英伟达微调qwen2.5-32B模型,开源推理模型:OpenCodeReasoning-Nemotron-32B

OpenCodeReasoning-Nemotron-32B 是一个基于 Qwen2.5-32B-Instruct 开发的大型语言模型,专为代码生成推理任务优化,支持 32,768 个标记的上下文长度,适用于商业和非商业用途。该模型在 LiveCodeBench 和 CodeContest 等基准测试中表现出色,尤其在代码生成任务中展现了强大的推理能力。其核心优势包括长上下文支持、硬件优化(专为

文章图片
#人工智能
基于AMD InstinctTM MI250 GPU从零开始训练而成的大模型:Motif-2.6B

《Motif-Technologies Motif-2.6B技术报告》介绍了26亿参数的开源语言模型Motif 2.6B,该模型基于AMD MI250 GPU训练42天,使用2.4T tokens数据。报告详细对比了与Mistral 7B、Gemma系列、Llama系列、Phi系列等主流模型的性能表现:在部分基准测试中表现优异(如GSM8K、HumanEval等平均提升34.25%),但在部分任务

文章图片
#机器人#算法#人工智能 +2
开源的流式文本转语音(TTS)模型(英法)速览:tts-1.6b-en_fr

Kyutai TTS是一款流式文本转语音模型,采用分层Transformer架构,支持英语和法语。该模型具有10亿参数,可实现实时音频生成,音频相对文本偏移1.28秒。特点是支持预计算语音嵌入、批处理高效(吞吐量达75倍)且无数字水印。训练数据包含250万小时公开音频,使用32个H100 GPU预训练后进行CFG蒸馏优化。模型在CC-BY 4.0许可下开源,适用于对话场景等实时语音合成需求。

文章图片
#语言模型#人工智能#自然语言处理 +1
OmniGen2模型论文速读:统一的图像生成

OmniGen:统一图像生成模型的新突破 北京人工智能研究院团队提出OmniGen模型,首次在图像生成领域实现类似LLMs的统一任务处理能力。该模型基于扩散架构,通过变分自编码器和变换器的组合设计,支持文本到图像、图像编辑、主体驱动生成等多项任务。关键创新包括: 简化架构,消除传统模型所需的多编码器预处理 设计混合注意力机制(因果+双向)处理多模态输入 构建1亿规模的X2I数据集统一训练格式 实验

文章图片
#开源#人工智能#语言模型 +2
深度学习优化器详解:SGD、Adam与AdamW

SGD是最基础的优化算法,每次迭代仅使用或计算梯度并更新参数。其中η是学习率,∇θ J是损失函数对参数的梯度。

文章图片
#算法#人工智能#深度学习
月之暗面开源升级版多模态多专家推理模型:Kimi-VL-A3B-Thinking-2506

Kimi-VL-A3B-Thinking-2506是新一代多模态AI模型,在多个关键领域实现突破性提升:1) 智能思考能力增强,多模态推理准确率显著提高20.1分(MathVision)至8.4分(MathVista),同时思考效率提升20%;2) 视觉理解能力达到84.4分(MMBench-EN),支持320万像素高分辨率处理(V∗ Benchmark 83.2分);3) 视频理解能力突破,Vi

文章图片
#开源#人工智能#语言模型 +3
英伟达开源物理理解与决策长链推理模型:Cosmos-Reason1-7B

NVIDIA推出的Cosmos-Reason1-7B是一款多模态物理AI模型,整合了视觉Transformer和语言Transformer架构,支持文本、图像和视频输入。该模型专注于物理常识理解和具身推理,在机器人技术和自动驾驶领域表现优异,在基准测试中平均准确率达65.1%。采用NVIDIA开放许可证允许商业用途,建议在GPU加速环境下使用以获得最佳性能。模型基于Qwen2.5-VL-7B架构进

文章图片
#语言模型#人工智能#自然语言处理 +1
INTELLECT-2大模型论文速读:通过全局分散强化学习训练的推理模型

INTELLECT-2 是一个 320 亿参数的语言模型,通过强化学习运行进行训练,利用社区提供的全球分布式、无需许可的 GPU 资源。

文章图片
#人工智能#深度学习
stella-mrl-large-zh-v3.5-1792d模型论文速读:Matryoshka 表示学习

本文提出Matryoshka表示学习(MRL)方法,通过在一个高维向量中嵌套优化不同容量的表示,实现灵活适应多种下游任务的计算和统计需求。MRL无需额外训练成本,在监督学习、对比学习和语言建模等场景中均保持与独立训练模型相当的准确性。实验表明,MRL在分类任务中可实现14倍的表示尺寸缩减,在检索任务中计算量降低128倍。该方法通过自适应调整表示维度,显著提升了机器学习系统的效率和灵活性,具有广泛的

文章图片
#学习#开源#语言模型
Skywork-R1V3-38B论文速读:一种先进的开源视觉 - 语言强化学习模型(VLM、RL)

Skywork-R1V3是一种先进的开源视觉-语言模型,通过强化学习框架将文本模型的推理能力迁移到视觉任务中。该模型采用独特的三阶段训练方法:冷启动微调、强化学习和连接器唯一微调。关键创新包括精心设计的奖励函数、GRPO算法优化以及连接器模块的针对性训练。在多个基准测试中,Skywork-R1V3表现出色,特别是在数学和逻辑推理任务上,达到与闭源模型相当的性能。研究还揭示了强化学习对提升多模态推理

文章图片
#人工智能#语言模型#大数据 +2
    共 257 条
  • 1
  • 2
  • 3
  • 26
  • 请选择