击水三千里个人主页

@JiShuiSanQianLi

击水三千里

2022-07-08 17:01:31 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

知识图谱之汽车实战案例综述与前瞻分析

知识图谱在汽车行业的应用案例，包括推荐系统、产品生命周期管理等，以及如何通过RippleNet等技术提升用户体验和个性化推荐。

#知识图谱 #人工智能

LainChain 原理解析：结合 RAG 技术提升大型语言模型能力

angChain使用RAG技术来增强大型语言模型（如GPT、ChatGPT等）的能力。通过结合检索器和语言模型，LangChain能够在回答问题时提供更加事实一致的答案，并给出知识来源。这种方法特别适用于知识密集型的任务，如回答复杂问题或进行事实验证。

#python #开发语言

揭秘AI训练黑洞：DeepSpeed-Chat中梯度检查点与LoRA优化的致命冲突

摘要：微软DeepSpeed-Chat框架在同时启用梯度检查点和仅优化LoRA参数时会报错，这是PyTorch底层机制的固有冲突。该问题源于梯度检查点重算时导致前向钩子失效，使LoRA无法获得梯度更新。本文通过分析三大参数（梯度检查点、LoRA维度、仅优化LoRA）的交互原理，结合GitHub和HuggingFace上的真实案例，提出两种解决方案：要么二选一使用，要么修改模型前向传播设置。文章还建

#人工智能

解锁AI巨型模型训练：DeepSpeed ZeRO Offload 全面指南

摘要：DeepSpeed的ZeROOffload技术通过将模型参数和优化器状态从GPU卸载到CPU/NVMe存储，使单张32GBGPU也能训练13亿参数模型。该技术基于ZeRO三阶段优化：1）仅卸载优化器状态；2）增加梯度卸载；3）完整分片参数和状态。相比传统方法，ZeROOffload可降低10倍GPU内存需求，支持在单机上训练原本需要多GPU集群的模型。配置简单，通过JSON文件即可启用，兼容

#人工智能

解锁AI巨型模型训练：DeepSpeed ZeRO Offload 全面指南

#人工智能

多模态大型语言模型（MLLM）综述

多模态大型语言模型（MLLMs）通过结合视觉和文本信息，推动了图像标注、视觉问答、视觉叙事等领域的发展，并在跨模态检索和搜索中展现出巨大潜力，同时也引发了对偏见和伦理的考量。

全方位掌握卷积神经网络：理解原理 & 优化实践应用

本文遵循从大的层面一直剖析到小细节的讲解原则

#cnn #人工智能 #神经网络

PyTorch与自然语言处理：从零构建基于LSTM的词性标注器

通过构建这个基于LSTM的词性标注器，我们展示了PyTorch在NLP任务中的强大能力。尽管模型结构相对简单（仅使用6维嵌入和隐藏状态），但通过捕获上下文信息，它能有效学习标注单词的词性。

#pytorch #自然语言处理 #lstm

大模型全量微调与部分参数微调技术概述

本文介绍了自然语言处理中的微调技术，包括全量微调和部分参数微调。全量微调基于大规模预训练模型，通过调整学习率、损失函数等设置，对特定任务进行训练。部分参数微调如Adapter-Tuning和Prefix-Tuning，通过引入少量可训练参数，减少训练成本，快速适应新任务。同时提及了LoRA和P-Tuning技术，以及如何使用Hugging Face的transformers库进行BERT模型的微调

GPTCache：革新大模型缓存，降低成本，提升效率

GPTCache项目通过语义缓存LLM响应，有效降低高流量下API调用成本和提高响应速度。项目提供从初始化到集成的详细步骤，支持自定义嵌入函数、数据管理器和相似度评估，优化了长序列处理和多轮对话的效率。此外，介绍了KV Cache在GPT2中的应用，展示了其在Transformer模型中的关键作用，通过缓存Key和Value状态减少计算量，加速模型推理。

#python

共 105 条

请选择