nopSled 个人主页

@qq_28385535

nopSled

2023-08-16 10:57:58 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

KIMI K2.5: VISUAL AGENTIC INTELLIGENCE翻译

我们推出了 Kimi K2.5，这是一个开源的多模态 Agent 模型，旨在提升通用智能体的性能。K2.5 强调文本和视觉的联合优化，使两种模态相互增强。这包括一系列技术，例如联合文本-视觉预训练、零视觉 SFT 和联合文本-视觉强化学习。基于这种多模态基础，K2.5 引入了 Agent Swarm，这是一个自导向的并行智能体编排框架，能够动态地将复杂任务分解为异构子问题并并行执行。大量的评估表明

#人工智能 #语言模型

OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation翻译

基于大语言模型（LLM）的多智能体系统在自动化现实世界任务方面展现出巨大潜力，但由于其领域特定性，难以跨领域迁移。现有方法面临两大关键缺陷：应用于新领域时，需要对所有组件进行完全的架构重新设计和重新训练。我们提出了 **WORKFORCE**，一个分层多智能体框架，它通过模块化架构将策略规划与专门执行解耦，该架构包含：（i）一个与领域无关的 **Planner**，用于任务分解；（ii）一个 **

#人工智能

Qwen2.5-VL Technical Report翻译

我们隆重推出 Qwen 视觉语言系列的最新旗舰型号 Qwen2.5-VL，它在基础功能和创新特性方面均实现了显著提升。Qwen2.5-VL 通过增强的视觉识别、精准的物体定位、强大的文档解析和长视频理解能力，在理解和与世界互动方面取得了重大突破。Qwen2.5-VL 的一个突出特点是能够使用边界框或点精确定位物体。它能够从发票、表单和表格中提取强大的结构化数据，并对图表、示意图和布局进行详细分析。

#语言模型 #人工智能 #自然语言处理

Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution翻译

我们推出了 Qwen2-VL 系列，它是对先前 Qwen-VL 模型的升级，重新定义了视觉处理中传统的预定分辨率方法。Qwen2-VL 引入了朴素**动态分辨率**机制，使模型能够动态地将不同分辨率的图像处理成不同数量的视觉 token。这种方法使模型能够生成更高效、更精确的视觉表征，与人类的感知过程更加契合。该模型还集成了**多模态旋转位置嵌入 (M-RoPE)**，从而有效地融合了文本、图像和

#语言模型 #人工智能 #自然语言处理

EgoMem: Lifelong Memory Agent for Full-duplex Omnimodal Models翻译

我们推出了 EgoMem，这是首个专为处理实时全模态流的全双工模型量身定制的终身记忆 Agent。EgoMem 使实时模型能够直接从原始视听流中识别多个用户，提供个性化响应，并长期保存从视听历史中提取的用户信息、偏好和社交关系。**EgoMem 通过三个异步进程运行**：（i）检索进程，通过面部和语音动态识别用户，并从长期记忆中收集相关上下文；（ii）全模态对话进程，基于检索到的上下文生成个性化音

#人工智能 #语言模型

Robust Speech Recognition via Large-Scale Weak Supervision翻译

语音识别领域的进步得益于无监督预训练技术的开发，例如 Wav2Vec 2.0。由于这些方法直接从原始音频中学习，无需人工标注，因此它们可以高效地使用大量未标注语音数据集，并且已迅速扩展到 1,000,000 小时的训练数据，远远超过学术监督数据集通常的 1,000 小时左右。在标准基准上进行微调后，这种方法已经提高了最先进的水平，尤其是在低数据设置下。这些预训练的音频编码器。

#语言模型 #人工智能 #自然语言处理

SCALING SPEECH-TEXT PRE-TRAINING WITH SYNTHETIC INTERLEAVED DATA翻译

语音语言模型 (SpeechLM) 接受语音输入并产生语音输出，与基于文本的大语言模型 (LLM) 相比，其人机交互更加自然。，这些数据的可用性远低于文本预训练数据，从而限制了其作为 LLM 的可扩展性。我们提出了一种新的语音-文本预训练扩展方法，该方法利用源自文本语料库的大规模合成交错数据，从而无需并行语音文本数据集。我们的方法通过从现有文本语料库中采样文本段并使用 text-to-token

#语言模型 #人工智能 #自然语言处理

A Survey on Social Simulation Driven by Large Language Model-based Agent翻译

社会科学研究人类行为和社会结构，以了解社会如何运作。传统的社会学研究严重依赖人类参与进行实验和收集数据。问卷调查和心理实验通常用于检验理论假设、理解社会现象并预测集体结果。虽然这些方法可以提供高度真实的数据，但它们成本高昂、难以规模化，并且存在一定的伦理风险。近年来，大语言模型 (LLM) 在人类级别的推理和规划方面展现出令人印象深刻的能力。它们能够感知环境、做出决策并采取相应的行动，展现出其作为

#语言模型 #人工智能 #自然语言处理

Condor: Enhance LLM Alignment with Knowledge-Driven Data Synthesis and Refinement翻译

大语言模型 (LLM) 正在经历快速发展，专有模型（如 GPT 和 Gemini）以及开源模型（如 LLaMA、Qwen、Mistral 和 Deepseek）以前所未有的速度发展。然而，这种快速迭代带来了一个重大挑战：用于有监督微调 (SFT) 的现有高质量数据的枯竭。此外，互联网上越来越多地充斥着质量参差不齐且通常值得怀疑的合成数据，这使得为 LLM 构建和筛选更高质量的训练数据变得越来越困难

#语言模型 #自然语言处理 #人工智能

BOND: Aligning LLMs with Best-of-N Distillation翻译

基于人类反馈的强化学习 (RLHF) 是推动 SOTA 大语言模型质量和安全的关键因素。然而，一个出人意料地简单且强大的推理时策略是 Best-of-N 采样，它可以从 $N$ 个候选样本中选出最佳生成结果。本文提出了 Best-of-N 蒸馏 (BOND)，这是一种新的 RLHF 算法，旨在模拟 Best-of-N，但在推理时不会产生显著的计算开销。具体而言，BOND 是一种分布匹配算法，它**

#语言模型 #人工智能 #自然语言处理

共 109 条

请选择