logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Qwen3 Technical Report翻译

追求通用人工智能 (AGI) 或超级人工智能 (ASI) 一直是人类的共同目标。大型基础模型(例如 GPT-4o、Claude 3.7、Gemini 2.5、DeepSeek-V3、Llama-4 和 Qwen2.5)的最新进展,已证明在这一目标上取得了显著进展。这些模型基于涵盖不同领域和任务的数万亿个 token 的海量数据集进行训练,有效地将人类的知识和能力提炼为参数。

文章图片
#语言模型#人工智能#自然语言处理
CoSER: Coordinating LLM-Based Persona Simulation of Established Roles翻译

大语言模型 (LLM) 的最新进展促进了人工智能中拟人化认知的出现。角色扮演语言 Agent (RPLA),即基于相关数据模拟既定角色的 LLM,因此而广受欢迎。RPLAs已被用于模拟各种类型的人物,包括不同人群、虚构角色或普通个体,并激发了广泛的应用,如角色聊天机器人、视频游戏中的 NPC 以及人类的数字克隆。本文研究的是针对既定角色的 RPLAs,这代表了一项至关重要但具有挑战性的任务,超越了

文章图片
#语言模型#人工智能#自然语言处理
EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test翻译

现代 LLM 的顺序特性导致其计算成本高昂且速度缓慢,而推测性采样已被证明是解决这一问题的有效方案。诸如 EAGLE 之类的方法在特征层执行自回归,通过重用目标模型中的顶层特征来获得比传统推测性采样更好的结果。**LLM 领域的一个发展趋势是扩展训练数据以在不增加推理成本的情况下提升模型智能**。然而,我们观察到,扩展数据对 EAGLE 的改进有限。我们发现,这种限制源于 EAGLE 的特征预测约

文章图片
#语言模型#人工智能#自然语言处理
gpt-oss-120b & gpt-oss-20b Model Card翻译

我们推出了 gpt-oss-120b 和 gpt-oss-20b,这两个开放权重推理模型遵循 Apache 2.0 许可证和我们的 gpt-oss 使用政策。这些纯文本模型是根据开源社区的反馈开发的,与我们的 Responses API 兼容,旨在用于具有强大指令遵循能力的 Agent 工作流中,支持网页搜索和 Python 代码执行等工具,并具备推理能力——包括**能够针对不需要复杂推理的任务调

文章图片
#人工智能#语言模型#自然语言处理
CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models翻译

近年来,神经文本转语音 (TTS) 合成模型因超越传统的拼接和统计参数化方法而备受关注。这些模型在预定义特定说话人上实现了高保真度和自然度。最近的研究表明,零样本 TTS 模型能够通过模仿参考语音的音色、韵律和风格,为任何说话人合成语音。除了上下文学习 (ICL) 能力之外,零样本 TTS 模型还受益于大规模训练数据,实现了几乎与人类语音难以区分的合成质量和自然度。最近的零样本语音合成 (TTS)

文章图片
#语言模型#人工智能#自然语言处理
Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies翻译

大语言模型作为多个相互交互和协作的 Agent,在解决复杂任务方面表现出色。这些 Agent 被编写以通过引入提示信息来声明其功能,并通过拓扑结构来协调 Agent 之间的交互。为 multi-agent 系统(MAS)设计提示信息和拓扑结构本身就非常复杂。为了实现整个设计过程的自动化,我们首先对设计空间进行深入分析,旨在理解构建高效 MAS 背后的因素。我们发现,提示信息和拓扑结构在实现更高效的

文章图片
#语言模型#人工智能#自然语言处理
AlphaAvatar:一个基于 LiveKit 的插件化实时 Omni-Avatar 架构

随着大模型 Agent、语音助手与数字人技术的快速发展,如何在真实工程环境中同时实现 实时交互、多模态感知、长期状态管理以及可视化虚拟角色,仍然是一个复杂且容易失控的问题。许多现有方案往往将 WebRTC、Agent 逻辑、记忆系统与前端渲染强耦合,导致系统难以扩展、维护成本高、工程复用性差。本文围绕开源项目 AlphaAvatar,介绍了一种基于 LiveKit 实时通信 与 插件化架构 的 O

文章图片
#人工智能#语言模型
百度开源 FAQ 问答系统(AnyQ)|FAQ数据集的添加

1.FAQ所谓FAQ(Frequently Asked Questions)问答,指的是通过构建一个数量巨大的问题答案库来作为语料库,当输入一个问题时,通过计算该问题与语料库中的所有问题的语义相似度,给出语义最相似的问题所对应的答案。两个问题语义相似度的计算方法,有:余弦相似度、Jaccard相似度、BM25相似度等。2.AnyQ索引(Indexing)模块在AnyQ系统中,索引(Index...

PIXELCRAFT: A MULTI-AGENT SYSTEM FOR HIGH-FIDELITY VISUAL REASONING ON STRUCTURED IMAGES翻译

结构化图像(例如图表和几何图形)对多模态大语言模型(MLLM)而言仍然是一个挑战,因为感知偏差可能导致错误的结论。中间视觉线索可以引导推理;然而,现有的基于线索的方法受限于低保真度的图像处理和线性、僵化的推理模式,限制了它们在复杂结构化图像任务上的有效性。本文提出了一种名为 **PixelCraft** 的新型多 Agent 系统,用于对结构化图像进行高保真度图像处理和灵活的视觉推理。**该系统包

文章图片
#人工智能#语言模型#自然语言处理
A Survey of Vibe Coding with Large Language Models翻译

大语言模型(LLM)的进步推动了辅助代码生成到自主编码 Agent 的范式转变,催生了一种名为“Vibe Coding”的新型开发方法。**在这种方法中,开发者通过观察结果而非逐行理解代码来验证人工智能生成的实现**。尽管Vibe Coding具有变革性的潜力,但其有效性仍未得到充分探索。实证研究表明,该方法会导致意想不到的生产力损失,并在人机协作方面面临根本性挑战。为了弥补这一空白,本综述首次对

文章图片
#语言模型
    共 96 条
  • 1
  • 2
  • 3
  • 10
  • 请选择