logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek-llm-7B-Chat微调教程(使用SwanLab可视化工具)

DeepSeek系列大模型由杭州深度求索高性价比:DeepSeek-V2模型以其史无前例的性价比著称,推理成本被降到每百万token仅1块钱,约等于Llama3 70B的七分之一,的七十分之一。架构创新:DeepSeek对模型架构进行了全方位创新,提出崭新的MLA(一种新的多头潜在注意力机制)架构,把显存占用降到了过去最常用的MHA架构的5%-13%,同时,独创的DeepSeekMoESparse

文章图片
#python#人工智能#语言模型
基于LangChain实现RAG(大模型使用通义千问)

RAG(Retrieval-Augmented Generation)是一种结合了检索和生成的方法,旨在提高自然语言处理任务的性能。相对于预训练和微调,RAG的优势在于能够利用外部知识源,如知识图谱或文档数据库,以增强模型的理解和生成能力。此外,RAG还可以通过检索相关信息来减少对大规模预训练数据的依赖,从而降低计算成本。

文章图片
如何做指令微调?一文轻松上手

在人工智能的快速发展中,指令微调(Instruction Tuning)成为了提升大型语言模型(LLM)能力的重要手段。与传统的训练方式不同,微调更多聚焦于在现有模型的基础上进行适应性调整,使其能够更好地执行特定任务或响应用户的指令。本文将带领大家一起深入了解指令微调的概念与实践方法,尤其是针对LLama2-Alpaca模型的微调实现。我们将从数据准备到微调代码的实现,再到如何使用SwanLab来

文章图片
#深度学习#神经网络#人工智能 +1
AI芯片资料概述

AI芯片也被称为AI加速器或计算卡,从广义上讲只要能够运行人工智能算法的芯片都叫作 AI 芯片。但是通常意义上的 AI 芯片指的是针对人工智能算法做了特殊加速设计的芯片。

文章图片
#人工智能
到底了