
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文介绍了一个大型对话数据集仓库,包含Reddit、OpenSubtitles和AmazonQA三个主要数据集,总计超过10亿个对话示例。这些数据以标准化的TensorFlow格式存储,包含对话上下文和反应特征,适用于训练对话系统。论文详细描述了数据集构建流程、预处理方法和评估框架,提出了1-of-100准确度的Recall@k评估指标。实验部分比较了关键词匹配、预训练嵌入和专用编码器等基线方法,

SV4D 2.0是一种改进的多视图视频扩散模型,能够从单目视频生成高质量动态3D资产。相比前代,它在处理遮挡、大运动和真实世界视频泛化方面表现更优,通过优化网络架构、数据处理和训练策略,显著提升了时空一致性和细节质量。实验表明,SV4D 2.0在合成数据集和真实视频上都优于基线方法,成为4D生成领域的重要进展。

本文提出LongWriter-Zero,一种基于强化学习的超长文本生成方法,无需依赖标注数据。通过Group Relative Policy Optimization算法和复合奖励模型(包括长度、写作质量和格式奖励),该方法有效解决了长文本生成中的连贯性退化等问题。实验表明,在WritingBench和Arena-Write基准测试中,LongWriter-Zero优于传统监督微调方法和1000亿

它涵盖了人工智能的各个方面,包括机器学习、自然语言处理、计算机视觉、知识表示与推理、多智能体系统、机器人学等。7.ICCV International Conference on Computer Vision (ICCV) ICCV也是世界顶级的计算机视觉会议之一,虽然它是两年举办一次,但每届都吸引了大量的计算机视觉领域的研究者参与,展示了该领域的最新研究成果和技术进展。它是机器学习领域的顶级会
论文提出 Liquid,一种自回归生成范式,通过将图像和文本都转化为离散代码并在共享特征空间中学习,实现视觉理解和生成的无缝集成。与以往多模态大语言模型(MLLM)不同,Liquid 仅使用一个大型语言模型(LLM),无需外部预训练的视觉嵌入(如 CLIP)。研究发现,随着模型尺寸增大,视觉与语言任务统一训练导致的性能下降会减弱。Liquid 还能相互增强视觉生成与理解任务,消除早期模型中的干扰问

阿里巴巴开发的QwenLong-CPRS框架创新性地优化了长文本处理,通过查询感知的多粒度压缩技术在五个基准测试中超越现有方法。该70亿参数模型(2025.5发布)集成了可控上下文优化、混合注意力架构和LM-critic评分等核心技术,实现21.59倍压缩率与19.15%性能提升。部署时需配置conda环境并通过API调用,支持并行窗口处理降低计算复杂度。实验表明其与Qwen2.5-32B结合使用

**摘要:**LongWriter-Zero是基于Qwen2.5-32B模型构建的强化学习文本生成系统,专攻超长连贯文本生成(10k+令牌)。通过300亿令牌的持续预训练和复合奖励函数(长度/写作/格式)优化,模型在WritingBench(8.69分)和Arena-Write(1447 Elo)基准测试中表现优异,超越多数开放模型。该研究为长文本生成中的连贯性控制提供了创新解决方案,适用于写作辅

Arcee Homunculus-12B是一个120亿参数的指令微调模型,通过从Qwen3-235B蒸馏到Mistral-Nemo架构实现。其核心创新包括:保留Qwen的双交互模式(/think深度推理和/nothink简洁回答)、优化推理轨迹的损失函数设计以及分词器改进。尽管规模较小,该模型在GPQADiamond(57.1%)和mmlu(67.5%)测试中表现优异,且可在消费级GPU上运行。论

此验证要求下es.ping()无法用在只读权限账户。
Skywork-SWE-32B是由Skywork AI开发的软件工程专用大模型,在SWE-bench测试中表现优异,基础版准确率达38%,使用测试扩展技术后提升至47%,成为32B参数以下模型的SOTA。该模型基于Qwen2.5-Coder-32B架构,采用自动收集的8209条高质量训练数据,并展示了数据规模法则的应用。在具体任务中,对django等仓库的修复率最高达49.78%。部署需安装指定版









