
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文演示了BERT模型中token、segment和position三种embedding的构造与相加流程。通过定义词表、初始化三个Embedding层,对输入序列的token、句子片段和位置信息分别进行编码,最终将三种embedding逐元素相加得到Transformer的输入表示。示例展示了一个包含[CLS]和[SEP]标记的典型BERT输入格式,输出为11×768维的矩阵,符合BERT Ba

LoRA是一种参数高效微调方法,通过低秩分解大幅减少训练参数量,解决大模型全参数微调面临的显存占用高、训练效率低和过拟合风险等问题。其核心原理是在预训练权重矩阵W0上引入两个低秩矩阵A和B,通过W_new = W0 + (α/r)·AB实现参数更新,其中r≪n/m,显著降低训练成本。训练阶段采用未合并模式仅更新A/B矩阵,推理时可合并权重提升效率。代码实现需注意训练与推理的模式切换,并通过数值验证

本文介绍了一个基于LangChain框架的本地RAG问答系统,通过整合智谱GLM大模型、Embedding模型和LanceDB向量数据库,解决了大语言模型知识时效性不足的问题。系统从本地文本文件中提取信息,经过文本分割、向量化存储后,通过向量检索匹配用户问题,最终由GLM模型基于检索结果生成回答。核心流程包括数据预处理、向量存储、检索匹配和生成回答四个步骤,实现了私有数据的高效利用和精准问答。系统

RAG(检索增强生成)技术通过结合信息检索与生成式AI,从外部知识库获取相关信息生成准确回答,解决大语言模型的局限性。数据加载作为RAG流程的第一步,直接影响系统效果。本文详细介绍了五种常见文件格式(Markdown、CSV、HTML、PDF、JSON)的加载方法,包括对应的加载器特点和使用场景。数据加载后的核心工作包括文档分割、嵌入向量生成、向量存储及检索生成。不同格式需选择适配的加载器,确保为

LoRA(低秩适应)技术通过将权重更新分解为两个小矩阵乘积(ΔW=BA),显著减少微调预训练模型所需的参数量。相比传统全量微调,LoRA可降低参数10000倍,减少GPU显存占用3倍,且不影响推理速度。该技术可应用于Transformer注意力机制中的Q/K/V计算,仅需训练低秩矩阵而非完整权重。使用时需注意与基础模型配合加载及权重合并操作。LoRA通过低维子空间理论实现高效微调,解决了大模型部署

本文介绍了LLM API的基础使用,重点讲解了环境变量配置和多轮对话实现方法。主要内容包括:1)如何通过命令行或Python设置环境变量来存储API密钥;2)使用os.getenv()获取环境变量值;3)单轮对话API调用示例;4)多轮对话的实现原理(手动保存上下文)和代码演示;5)流式输出的实现方法。文章强调使用国内大模型API的门槛较低,无需深入理解AI原理,适合初学者快速上手。通过示例代码展
Linux:centOS-7配置与本机IP同一网段1.确认本机IPctrl+R:输入cmd 回车 输入命令:ipconfig ,记下自己的IP地址,网关,DNS在目标虚拟机下右键, 选择“设置”, 打开“虚拟机设置”对话框, 再选择“网络适配器” 我的电脑虚机配置开始是使用NAT模式的, 如下图所示:选择桥接模式[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HQ19








