m0_62238159 个人主页

@m0_62238159

m0_62238159

2023-05-26 23:39:43 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

RAG 冠军项目

经过这次学习，我对 RAG 的理解发生了一个明显变化。RAG = 检索 + 生成RAG = 围绕“证据质量”展开的一整套系统设计文档能不能被正确解析chunk 怎么切metadata 怎么保留用什么方式检索是否需要 rerank是否需要 small-to-big最终怎么把上下文拼给模型输出是否结构化能不能回溯到引用页码也就是说，RAG 的难点从来不只是“接一个向量库”。怎样让模型基于可靠证据回答，

#python #人工智能 #深度学习

训练大模型，你真的选对 GPU 了吗？A/H/B系列（100，800）的区别与选择

多模态微调选卡看 NVLink，不要只盯着显存大小和算力峰值。RFT 额外需要显存能同时放下 actor 和 ref model。以看到厂商写"989 TFLOPS"，心里要默认打个对折——训练场景下约 495 TFLOPS 才是更接近现实的参考基线，然后再乘以 MFU（约 40-55%）才是实际吞吐。所以看到厂商写"989 TFLOPS"，心里要默认打个对折——训练场景下约 495 TFLOPS

#人工智能 #深度学习

Qwen3 推理模式深度解析：从 Qwen2.5 的“隐式思考“到 Qwen3 的“原生推理“

在大语言模型（LLM）领域，推理模式（Thinking/Reasoning Mode）特指模型在输出最终答案之前，会生成一段类似人类草稿纸演算过程的中间思考内容。强化学习（RL）驱动的链式思维（CoT）模型被训练为"先想清楚，再开口"通过牺牲响应速度换取逻辑准确性Qwen 系列在 2.5 → 3 的迭代中，正是沿着这条路径完成了从"隐式思考"到"原生推理"的关键跨越。从"博学的心算者"走向"严谨的

#人工智能 #深度学习 #语言模型

大模型分布式训练：DP、TP、PP 三大并行策略通俗讲解

DP 数据并行TP 张量并行PP 流水线并行切分对象训练数据矩阵运算（层内）模型层数（层间）每卡存什么完整模型部分权重矩阵几层的完整参数解决的问题加速训练、扩展数据量激活内存过大模型整体放不下通信类型All-Reduce（梯度同步）All-Gather / Reduce-Scatter（频繁）点对点传激活值（少）跨节点效果✅ 较好❌ 很差（带宽瓶颈）✅ 较好主要副作用每卡存完整模型必须节点内使用流

#人工智能

深入理解 RLHF/PPO/DPO/GRPO

我们先讲讲什么是RLHF（Reinforcement Learning from Human Feedback），为什么要进行RLHF，RLHF分哪些环节。1.什么是RLHF：RLHF是一种【通过收集人类反馈数据（符合人类偏好的数据），训练出奖励模型，通过奖励模型评估LLM的答案，更新LLM权重，最终得到答案符合人类偏好的LLM】的模型训练优化框架。而PPO（Proximal Policy Opt

#人工智能 #深度学习 #自然语言处理

到底了