logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

表征模型all-MiniLM-L6-v2论文速读:会话数据集存储库

本文介绍了一个大型对话数据集仓库,包含Reddit、OpenSubtitles和AmazonQA三个主要数据集,总计超过10亿个对话示例。这些数据以标准化的TensorFlow格式存储,包含对话上下文和反应特征,适用于训练对话系统。论文详细描述了数据集构建流程、预处理方法和评估框架,提出了1-of-100准确度的Recall@k评估指标。实验部分比较了关键词匹配、预训练嵌入和专用编码器等基线方法,

文章图片
#人工智能#算法#机器学习 +1
sv4d2.0模型论文速读:增强多视点视频扩散时空一致性的方法 高质量的四维生成

SV4D 2.0是一种改进的多视图视频扩散模型,能够从单目视频生成高质量动态3D资产。相比前代,它在处理遮挡、大运动和真实世界视频泛化方面表现更优,通过优化网络架构、数据处理和训练策略,显著提升了时空一致性和细节质量。实验表明,SV4D 2.0在合成数据集和真实视频上都优于基线方法,成为4D生成领域的重要进展。

文章图片
#音视频#人工智能#算法 +4
LongWriter-Zero-32B模型论文速读:掌握超长文本生成的强化学习方法

本文提出LongWriter-Zero,一种基于强化学习的超长文本生成方法,无需依赖标注数据。通过Group Relative Policy Optimization算法和复合奖励模型(包括长度、写作质量和格式奖励),该方法有效解决了长文本生成中的连贯性退化等问题。实验表明,在WritingBench和Arena-Write基准测试中,LongWriter-Zero优于传统监督微调方法和1000亿

文章图片
#人工智能#开源#语言模型
前沿顶会论文 站点

它涵盖了人工智能的各个方面,包括机器学习、自然语言处理、计算机视觉、知识表示与推理、多智能体系统、机器人学等。7.ICCV International Conference on Computer Vision (ICCV) ICCV也是世界顶级的计算机视觉会议之一,虽然它是两年举办一次,但每届都吸引了大量的计算机视觉领域的研究者参与,展示了该领域的最新研究成果和技术进展。它是机器学习领域的顶级会

#算法#人工智能#机器学习 +1
用语言模型训练出图像生成和理解能力:Liquid 框架 论文速读

论文提出 Liquid,一种自回归生成范式,通过将图像和文本都转化为离散代码并在共享特征空间中学习,实现视觉理解和生成的无缝集成。与以往多模态大语言模型(MLLM)不同,Liquid 仅使用一个大型语言模型(LLM),无需外部预训练的视觉嵌入(如 CLIP)。研究发现,随着模型尺寸增大,视觉与语言任务统一训练导致的性能下降会减弱。Liquid 还能相互增强视觉生成与理解任务,消除早期模型中的干扰问

文章图片
#语言模型#计算机视觉#人工智能
阿里开源QwenLong-CPRS-7B模型速递:通过查询感知的多粒度压缩优化长文本处理

阿里巴巴开发的QwenLong-CPRS框架创新性地优化了长文本处理,通过查询感知的多粒度压缩技术在五个基准测试中超越现有方法。该70亿参数模型(2025.5发布)集成了可控上下文优化、混合注意力架构和LM-critic评分等核心技术,实现21.59倍压缩率与19.15%性能提升。部署时需配置conda环境并通过API调用,支持并行窗口处理降低计算复杂度。实验表明其与Qwen2.5-32B结合使用

文章图片
#人工智能#算法#机器学习 +1
基于强化学习的连贯长文本(写作)生成语言模型:LongWriter-Zero-32B

**摘要:**LongWriter-Zero是基于Qwen2.5-32B模型构建的强化学习文本生成系统,专攻超长连贯文本生成(10k+令牌)。通过300亿令牌的持续预训练和复合奖励函数(长度/写作/格式)优化,模型在WritingBench(8.69分)和Arena-Write(1447 Elo)基准测试中表现优异,超越多数开放模型。该研究为长文本生成中的连贯性控制提供了创新解决方案,适用于写作辅

文章图片
#人工智能#开源#语言模型
开源的混合推理模型:Homunculus-12B

Arcee Homunculus-12B是一个120亿参数的指令微调模型,通过从Qwen3-235B蒸馏到Mistral-Nemo架构实现。其核心创新包括:保留Qwen的双交互模式(/think深度推理和/nothink简洁回答)、优化推理轨迹的损失函数设计以及分词器改进。尽管规模较小,该模型在GPQADiamond(57.1%)和mmlu(67.5%)测试中表现优异,且可在消费级GPU上运行。论

文章图片
#语言模型#人工智能#自然语言处理 +2
数据库链接操作:elasticsearch(es)、postgre(pg)

此验证要求下es.ping()无法用在只读权限账户。

#数据库#elasticsearch#大数据
用于软件工程开源代码模型:Skywork-SWE-32B

Skywork-SWE-32B是由Skywork AI开发的软件工程专用大模型,在SWE-bench测试中表现优异,基础版准确率达38%,使用测试扩展技术后提升至47%,成为32B参数以下模型的SOTA。该模型基于Qwen2.5-Coder-32B架构,采用自动收集的8209条高质量训练数据,并展示了数据规模法则的应用。在具体任务中,对django等仓库的修复率最高达49.78%。部署需安装指定版

文章图片
#开源#人工智能#语言模型 +2
    共 328 条
  • 1
  • 2
  • 3
  • 33
  • 请选择