the_3rd_bomb 个人主页

@the_3rd_bomb

the_3rd_bomb

2023-02-13 21:30:57 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

MNIST 数据并行 Data Parallel - DP

用DP情况下虽然循环里每次的 batch 大小还是一样的, 但模型 forward 确实将 batch / len(device_ids), 原来 512 的 batch 变为 256, 两个卡上各自有一个模型分别跑了 1 / len(device_ids) 的数据。模型输出（outputs）来自多个子 GPU，但会在主卡上 gather，因为 torch.nn.DataParallel 的默认

langchain教程-6.TextSplitter/文档切分

是通过将文本按指定的分隔符拆分成多个块来进行切分的。separator：首先，会按照用户指定的分隔符（如换行符、空格、逗号等）拆分文本。分隔符可以是一个简单的字符串，也可以是一个正则表达式。chunk_size：每个生成的块会被限制在一个最大大小（chunk_size）内，超出这个大小的文本会被分割成新的块。：为了保持上下文的连贯性，可以在相邻块之间保持一定的字符重叠。重叠的字符数由参数指定，通常

#自然语言处理

langchain教程-10.Reranker/文档重排序

我没有在 langchain 上找到基于 api 的 reranker 类，xinference有，它能部署embedding和reranker，也有对应的类来调用接口。只是对文档压缩, 现在起到过滤作用。对检索到的结果进行重新排序。

#人工智能 #自然语言处理

langchain教程-7.Embedding/文本向量化

两个向量。

#人工智能 #自然语言处理

langchain教程-8.VectorStore/向量数据库存储和检索

是专门设计的数据库，用于通过向量表示（嵌入）来和信息。它们通常用于通过识别语义相似的内容而非依赖精确的关键词匹配，来搜索非结构化数据，如文本、图像和音频。

#自然语言处理

使用json_repair修复大模型的json输出错误

有些 LLM 在返回格式正确的 JSON 数据时会有些问题，有时会漏掉括号，有时会在数据中添加一些单词。不至于这种错误每次都要丢弃，再次生成太浪费时间了，因此能修复错误时还是要尽量修复。这就是的主要目的：修复 LLM 在生成 json 数据时的错误。

#json #自然语言处理 #nlp

将lora权重合并到原模型

lora权重合并代码

#python #transformer #语言模型

使用json_repair修复大模型的json输出错误

#json #自然语言处理 #nlp

MNIST 手写数字分类

转自我的个人博客:https://shar-pen.github.io/2025/05/04/torch-distributed-series/1.MNIST/

SFT数据指令评估-1.AlpaGasus/基于强大模型直接评估数据

这种情况下一般指的是文本理解能力很强的黑盒api大模型，如chatgpt。这种情况下，大模型对文本理解不会有什么大的问题，因此对于嵌套数据也能理解，例如我让大模型执行指令微调数据打分，以一个任务的prompt和output为输入。小模型可能会对这种包含了两个指令的文本理解错误，强模型基本能理解。因此，可以以强模型来直接对指令微调数据进行打分。

#自然语言处理

共 11 条

请选择