logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek-v3笔记(1)

直接从第二章Architecture开始。

文章图片
FastGen和split-fuse——23年12月deepspeed的加速方法

vllm从orca那抄到的连续批处理有缺点,它期望“在batch里动态卸载、加载序列”,也确实做到了,但是prefill和decoder俩阶段的计算方法不一样,前者一次性算出来,后者一个一个吐出来,两个的操作方法不同导致消耗的时间不同。显然,花费的时间仍然要看最长prefill token数,还是浪费算力。回看orca,它没有分prefill和decode,当前batch所有序列该推哪步推哪步,第

#人工智能#自然语言处理
Trainer、RewardTrainer、PPOTrainer、DPOTrainer都需要什么格式的数据?

Trainer用于预训练。这仨就是tokenizer给你的东西,所以处理语料是主要内容,然后扔tokenizer里得到这仨。一般input_ids就是你输入的整个QA语料,包括bos eos。具体格式得看具体模型。attention_mask与你的语料长度一致,一般全1。不一般是指这种情况:你一次的语料是一个batch,这会需要你对短的数据做left padding或right padding(取

文章图片
#人工智能#深度学习
如何通过大模型生成业务需要的数据集

现在大模型训练数据的主力都是LLM自己贡献的了。但是也不是说你让它输出什么,然后它就一劳永逸地不停地输出你想要的东西。受限于LLM本身的能力、上下文规定的长度、训练方式导致的有限变化,你需要不断变更你的prompt,以让输出更多样。接下来介绍的数据生成方法。

文章图片
#人工智能
vllm安装踩坑

我没找到好的解决办法,issue里说的情况都是在用源码安装后遇到的,我直接在干净环境ubuntu20.24 cuda12.2下面pip安装,仍然遇到了问题。而且问题指向是torch里的class缺少属性,因此我猜测是torch的问题,vllm的每个版本又强制要求某个torch版本,因此我只能选择之前的vllm版本。vllm0.5.2最近一周出了个不好搞的新issue,会遇到torch.ops._C

#人工智能
如何通过大模型生成业务需要的数据集

现在大模型训练数据的主力都是LLM自己贡献的了。但是也不是说你让它输出什么,然后它就一劳永逸地不停地输出你想要的东西。受限于LLM本身的能力、上下文规定的长度、训练方式导致的有限变化,你需要不断变更你的prompt,以让输出更多样。接下来介绍的数据生成方法。

文章图片
#人工智能
Deepseek-r1-zero和Deepseek-r1

zero是一个实验,它不足以作为商业化模型进行应用。

文章图片
#人工智能#自然语言处理
DeepSeek-v3笔记(1)

直接从第二章Architecture开始。

文章图片
vllm安装踩坑

我没找到好的解决办法,issue里说的情况都是在用源码安装后遇到的,我直接在干净环境ubuntu20.24 cuda12.2下面pip安装,仍然遇到了问题。而且问题指向是torch里的class缺少属性,因此我猜测是torch的问题,vllm的每个版本又强制要求某个torch版本,因此我只能选择之前的vllm版本。vllm0.5.2最近一周出了个不好搞的新issue,会遇到torch.ops._C

#人工智能
如何让LLM准确地输出一个json

json其实是有很严格的输出结构的,{后面必须是",第一个"肯定是key的,key之后肯定是 “:”,然后是value。我猜是直接在一开始强制生成{",然后强制不生成",直到生成一个合法的key,然后再遇到一个",然后继续强制。function call本质也是一个LLM训练的结构化输出,而且训练得够好,够稳定,比起要求LLM输出json,由function call格式代替然后转变成json更好

#人工智能
    共 12 条
  • 1
  • 2
  • 请选择