logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek-R1 86页加长版:通过强化学习激励大语言模型的推理能力 技术报告中文翻译

2025年5月至2026年5月期间,AI领域涌现了多项重要技术突破。主要厂商如OpenAI、Google DeepMind、Anthropic、阿里Qwen等发布了旗舰模型和技术报告,聚焦三大发展方向:推理范式(如Qwen3、GPT-5系列)、Agent/Coding能力(Claude 4、Kimi K2)以及多模态/全模态技术(Gemini 2.5、Qwen3-Omni)。其中,OpenAI的G

文章图片
#人工智能
DeepSeek-R1:通过强化学习激励大语言模型的推理能力 技术报告中文翻译

本文介绍了DeepSeek-AI研发的两代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero通过纯强化学习(RL)训练,无需监督微调(SFT)即可展现卓越推理能力,但存在可读性问题。DeepSeek-R1在此基础上引入多阶段训练和冷启动数据,性能媲美OpenAI-o1-1217。研究团队开源了模型及6个蒸馏版本(1.5B-70B),其中14B模型超越

文章图片
#语言模型#人工智能#自然语言处理
DeepSeek-R1:通过强化学习激励大语言模型的推理能力 技术报告中文翻译

本文介绍了DeepSeek-AI研发的两代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero通过纯强化学习(RL)训练,无需监督微调(SFT)即可展现卓越推理能力,但存在可读性问题。DeepSeek-R1在此基础上引入多阶段训练和冷启动数据,性能媲美OpenAI-o1-1217。研究团队开源了模型及6个蒸馏版本(1.5B-70B),其中14B模型超越

文章图片
#语言模型#人工智能#自然语言处理
2026年5月15日 论文研读 方向

摘要:当前AI领域的研究重点已转向2024-2026年的新技术报告,建议采用"80%新技术+20%经典论文"的阅读策略。针对不同职业方向给出两条学习路线:文本大模型主线(DeepSeek/GLM/MiniMax系列)和多模态主线(Qwen-VL/InternVL系列)。特别推荐多模态方向,因其融合视觉、文本、推理等综合能力,在文档理解、GUI Agent等应用场景更具落地价值。建议通过具体项目(如

文章图片
#人工智能
DeepSeek LLM Scaling Open-Source Language Models with Longtermism 中文翻译

摘要: DeepSeek LLM 是一项致力于以长期主义推进开源语言模型发展的研究项目。论文深入探讨了语言模型的缩放定律,提出了独特的扩展策略,并构建了包含2万亿tokens的大规模预训练数据集。研究团队基于LLaMA架构开发了7B和67B两种参数规模的模型,通过优化数据去重、过滤和混合策略提升数据质量。67B模型采用深度扩展和分组查询注意力(GQA)设计,在代码、数学和推理任务上表现优异,超越了

文章图片
#语言模型#人工智能#自然语言处理
DeepSeek LLM Scaling Open-Source Language Models with Longtermism 中文翻译

摘要: DeepSeek LLM 是一项致力于以长期主义推进开源语言模型发展的研究项目。论文深入探讨了语言模型的缩放定律,提出了独特的扩展策略,并构建了包含2万亿tokens的大规模预训练数据集。研究团队基于LLaMA架构开发了7B和67B两种参数规模的模型,通过优化数据去重、过滤和混合策略提升数据质量。67B模型采用深度扩展和分组查询注意力(GQA)设计,在代码、数学和推理任务上表现优异,超越了

文章图片
#语言模型#人工智能#自然语言处理
DeepSeek LLM Scaling Open-Source Language Models with Longtermism 中文翻译

摘要: DeepSeek LLM 是一项致力于以长期主义推进开源语言模型发展的研究项目。论文深入探讨了语言模型的缩放定律,提出了独特的扩展策略,并构建了包含2万亿tokens的大规模预训练数据集。研究团队基于LLaMA架构开发了7B和67B两种参数规模的模型,通过优化数据去重、过滤和混合策略提升数据质量。67B模型采用深度扩展和分组查询注意力(GQA)设计,在代码、数学和推理任务上表现优异,超越了

文章图片
#语言模型#人工智能#自然语言处理
ssh cmd命令行可以连接 但是vscode cursor无法连接的原因 --太多D进程阻塞在I/O过程中 磁盘被占用太多

系统因test2用户的Python任务导致磁盘I/O饱和,出现多进程D状态卡死,表现为系统响应极慢、load飙升至40-50。通过终止问题进程解决,验证后系统恢复正常(CPU空闲96%、I/O等待0.9%)。根本原因是并发磁盘读写引发I/O堵塞,建议采取用户资源限制、I/O优先级调整及监控等预防措施。该案例属于典型I/O瓶颈型故障,需注意并发任务管理。

文章图片
#ssh#vscode#运维
面试知识点 1 2 3复印版本

核心思想:冻结原模型参数,只在部分线性层旁边插入低秩矩阵:其中 (A,B) 是可训练低秩矩阵,参数量远小于全参微调。LoRA 论文明确提出冻结预训练权重、注入可训练低秩矩阵,从而大幅减少可训练参数和显存。arXiv面试一句话:LoRA 不改动原始大模型主干,只训练低秩适配矩阵,用很少参数实现接近全参微调的效果,适合资源有限、快速适配领域任务。普通 agent:一个会规划、调用工具、执行任务的智能体

文章图片
#面试#职场和发展
DeepSeek-V4知识点讲解记录

本文介绍了Hyper-Connections(HC)在Transformer架构中的创新应用。HC将传统的单条残差连接扩展为多条并行残差通道,每层操作包含三个关键步骤:通过输入映射A_l混合多条通道作为层输入,经过Transformer子层F_l计算后,使用输出映射C_l将结果分配回各通道,同时残差变换B_l实现通道间的信息交互。与普通残差连接相比,HC通过矩阵X_l∈ℝ^(n_hc×d)维护多通

文章图片
#人工智能
    共 98 条
  • 1
  • 2
  • 3
  • 10
  • 请选择