logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

垂直领域大模型为何必须跨越 SFT,拥抱 GRPO?

问题答案基模好,能否跳过 SFT 直接 RL?需要最小化 SFT(几千条),不能零 SFTSFT 和 RL 的本质区别?SFT 教"像专家说话",RL 教"像专家思考"垂直领域的核心竞争力?不是拥有多少数据,而是能否定义出"什么是好结果"从 SFT 到 GRPO,本质是让大模型从"文科生"(博闻强记)进化为"理科生"(举一反三)。参考资料DeepSeek-R1 技术报告GRPO 原始论文。

#人工智能#机器学习#深度学习
一文搞懂 PPO 与 DPO:大模型对齐的两条路线

PPO 是"请翻译帮忙",DPO 是"直接学原文"。偏好学习可以绕过强化学习,转化为简单的监督学习问题。这不仅降低了训练成本,还提高了稳定性,是大模型对齐领域的一次重要简化。

#机器学习#人工智能#算法
LLM推理加速的三板斧:从第一性原理看批处理、长度排序和前缀共享

LLM推理优化的本质是一场与硬件限制的博弈。通过深入理解GPU的工作原理,我们可以设计出越来越精妙的优化策略。特别是全局KV缓存池的设计,它不仅仅是一个技术优化,更是一种架构思维的转变——从"面向批次"到"面向服务"的转变。这种转变让LLM服务真正具备了生产级的效率。请记住:你的每一个字符都在这个精密的系统中流转,而系统正在用尽一切办法,确保没有一个晶体管在空转。

#算法
Mini DeepSeek-v3训练脚本学习

这是一个实现了Mini DeepSeek-v3大语言模型的训练脚本,集成了多项先进的深度学习技术。该脚本支持自动GPU选择和分布式训练,适合在多GPU环境下训练Transformer模型。

在国内快速稳定下载 HuggingFace 模型的两种方法

比较项方法一:hfd + aria2方法二:huggingface-cli下载速度⭐⭐⭐⭐(最快)⭐⭐(中等)安装复杂度中(需安装 aria2)低(纯 Python 工具)对容器支持需能装 aria2✅ 非常友好自动化脚本支持一般(Shell)✅ 非常适合是否支持断点续传✅ 支持✅ 支持是否支持镜像站✅ HF-Mirror 推荐方式✅ 通过配置适合下载大型模型✅ 强烈推荐✅ 可用但速度较慢。

无监督的预训练

如图所示:假设你想要解决一个复杂的任务,你没有太多的标记的训练数据,但不幸的是,你不能找到一个类似的任务训练模型。 不要失去所有希望! 首先,你当然应该尝试收集更多的有标签的训练数据,但是如果这太难或太昂贵,你仍然可以进行无监督的训练(见图 11-5)。 也就是说,如果你有很多未标记的训练数据,你可以尝试逐层训练层,从最低层开始,然后上升,使用无监督的特征检测算法,如限制玻尔兹曼机(RBM;见附录

gpu无法调用解决方案记录

一、问题描述:以前GPU都用的好好的,突然今天就用不了,程序无法启用GPU,nvidi-smi命令显示:No running process found想起中间卸载过重装过tensorflow-cpu版本;于是卸载重装,仍然无法使用,问题依旧;然后卸载tensorlfow-gpu版本,然后再重装,再使用就OK了这说明tensorflow-gpu的使用是非常依赖于tensorflo...

熵权法中计算的熵值与决策树的熵值完全不一样之谜

熵权法中的熵值计算公式如图所示:比如说某个评价的指标完全一样,1,1,1,1,1,1那么m=6,p1到p6的概率均等于1/6;这个时候的熵值是最大的;所以在计算指标权重时,用这种方法反而是数据越小越混乱;权重越大;所以计算权重时都需要将1-ent值;这里的本质是已经将类别分好的,这里的数值代表属于该类别的样本个数;而我在决策树算法中看到的熵值,m=2,p1=1(值为1的是一类)...

MinHash算法:为什么选择Min而不是Max

既然理论上Max和Min等价,为什么实践中几乎都用Min?在算法的世界里,实验和数学同样重要。MinHash的故事,就是一个完美的例子。“MinHash使用最小值是因为Max不work,Max会严重低估相似度。这与许多教科书和博客的说法完全不同。两个定理的证明是完全对称的。一旦确立了标准,整个社区就沿用了这个约定。让我们用严谨的数学和实验来探寻真相。而k-max需要反向排序,略显不自然。剧透:答案

#算法
    共 70 条
  • 1
  • 2
  • 3
  • 7
  • 请选择