蓝海星梦个人主页

@Eternity__Aurora

蓝海星梦

2023-11-23 17:52:14 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【强化学习】深度解析 GSPO：解决 GRPO 中优化目标与奖励不匹配的问题

Group Sequence Policy Optimization（GSPO）是 Qwen 团队提出的一种新型强化学习算法。遵循重要性采样的基本原则，基于序列似然定义重要性比率，并执行序列级的裁剪、奖励和优化。与 GRPO 相比，GSPO 在训练稳定性、效率和性能方面表现出显著优势，尤其在大规模训练混合专家（MoE）模型方面表现出色。

#人工智能 #自然语言处理 #论文阅读

【数据析要】CASIA-HWDB 中文手写数据集一站式处理指南

CASIA数据集是由中科院自动化所构建的中文手写数据库，包含在线(CASIA-OLHWDB)和离线(CASIA-HWDB)两个版本。数据采集于2007-2010年，由1020名书写者使用数码笔书写，涵盖孤立字符和连续文本两种形式。本文全面解析CASIA-HWDB1.x与2.x，含.gnt、.dgrl格式详解，附Python代码，生成jpg图像与标签，可直接用于训练。

#数据分析 #数据挖掘

【论文笔记】LLaVA——指令微调赋能多模态大模型

LLaVA 是一种大型多模态模型，通过指令微调将视觉编码器与大型语言模型（LLM）相结合，显著提升了视觉和语言任务的性能，尤其在多模态对话和指令遵循方面表现出色。

#计算机视觉 #人工智能 #深度学习 +4

【论文笔记】DeepSeek-R1：强化学习驱动的推理能力突破

本文介绍了DeepSeek-R1系列推理模型的研究进展。DeepSeek-R1-Zero首次证明仅通过大规模强化学习（RL）即可显著提升模型推理能力，无需监督微调（SFT），在AIME 2024基准上pass@1分数从15.6%提升至71.0%。为改善其可读性问题，研究者进一步提出DeepSeek-R1，引入冷启动数据和多阶段训练流程（SFT+RL+拒绝采样），性能达到与OpenAI-o1-121

#论文阅读 #人工智能 #语言模型 +2

Chain‑of‑Thought 推理链评估全解析：从参考方法到无参考指标

随着大语言模型在多步推理任务中的能力不断提升，Chain-of-Thought（CoT）推理已成为分析与改进模型行为的重要工具。然而，相比推理方法本身，如何可靠地评估模型生成的推理过程这一问题长期缺乏统一答案。本文系统梳理了 CoT 推理评估方法的发展脉络，重点总结近年来代表性的无参考评估指标与基准，并进一步讨论不同自动评估方法与人类判断之间的一致性问题。

#人工智能 #自然语言处理 #论文阅读

【论文笔记】OctoThinker：突破 Llama 推理瓶颈的中期训练范式

本文介绍了OctoThinker模型，这是一种通过中期训练策略优化Llama模型推理能力的新型方法。研究表明，高质量的数学语料库和数据混合策略对提升模型的强化学习（RL）性能至关重要。OctoThinker采用两阶段中期训练策略，首先在大规模数据上进行稳定训练，然后在特定推理分支上进行衰减训练。实验结果表明，该策略显著提升了模型在数学推理任务上的表现，缩小了与RL友好模型家族如Qwen的性能差距。

#论文阅读 #语言模型 #深度学习 +1

【DeepSeek开源周】Day 5：3FS & Smallpond 学习笔记

Fire-Flyer File System（3FS）是一个高性能分布式文件系统，旨在解决人工智能训练和推理工作负载的挑战。它利用现代固态硬盘（SSD）和远程直接内存访问（RDMA）网络，提供一个共享存储层，从而简化分布式应用程序的开发。

#开源 #学习 #云计算 +1

【DeepSeek开源周】Day 3：DeepGEMM 学习笔记

DeepGEMM 是一个专为 NVIDIA Hopper 架构设计的高效 FP8 矩阵乘法库，支持普通和混合专家模型（MoE）分组矩阵乘法，通过简洁的实现和即时编译技术，实现了高性能和易用性。官方开源代码链接：https://github.com/deepseek-ai/DeepGEMM

#开源 #学习 #矩阵 +2

【DeepSeek开源周】Day 4：DualPipe & EPLB 学习笔记

DualPipe 是一种创新的双向流水线并行算法。它通过在流水线的两端同时注入微批次，实现了前向和反向传播的完全重叠，从而大幅减少了流水线空闲时间（Pipeline Bubble），显著提高了计算资源的利用率。EPLB（Expert Parallelism Load Balancer）则是一种专家并行负载均衡算法。通过冗余专家策略和分组限制专家路由，优化了专家并行（EP）中的负载分配，确保不同 G

#开源 #学习 #人工智能 +2

【DeepSeek开源周】Day 2：DeepEP 学习笔记

DeepEP 是由DeepSeek专为Mixture-of-Experts (MoE) 和专家并行 (Expert Parallelism, EP)设计的高效通信库。它提供了高吞吐量和低延迟的全对全（all-to-all）GPU内核，这些内核也被称为MoE分发（dispatch）和合并（combine）。该库还支持低精度操作，包括FP8。官方开源代码链接：https://github.com/de

#开源 #云计算 #人工智能 +1

共 19 条

请选择