logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型开发(二):RAG项目——物流信息咨询问答系统

上篇文章,我们使用的是百度智能云平台(也叫千帆平台)上已经部署好的模型,对一个企业来说,你把模型放到别人的服务器上,会有一定的信息安全隐患,使得自己“受制于人”;另一方面,很多业务场景的生产环境都是隔离,也就是没有联网,这种情况下你很难用类似的公共云服务来进行推理。因此,在本地或者私有云上进行开发也是大模型开发的一项重要能力。本文以“物流行业信息咨询问答系统”这个项目为载体,介绍一下RAG和私有云

文章图片
#人工智能
大模型基础(二):GPT-2的高效训练

上篇文章,我们介绍了GPT-2的结构,本文我们来介绍一下GPT-2的高效训练,相关的训练技巧也可以用于其他模型的加速训练。本文依然参考的是Andrej Karpathy复现GPT-2的讲解视频,本文的硬件设备为 RTX 3060显卡,显卡必须是30及以上系列,关于分布式的部分,则至少需要2张显卡。为了对比,我们把上篇文章复现GPT-2的代码,放到 model.py文件中,后续需要调用模型的时候,直

文章图片
#人工智能#自然语言处理
大模型基础(三):Llama3复现

Llama 3,是Meta公司发布的大型语言模型,虽然能力上不如GPT4,但因为GPT4不开源,所以截至2024年4月,它也是最强的开源大模型。Llama3 有 8B 和 70B 两个版本。无论哪一个,我们都不可能成功复现出来,所以今天我们只实现一个mini版本,即原模型有的结构这里都有,但层数和维度都做了简化,其中隐藏层维度由4096降为1024,解码层数量由32降为2。本文的内容参考了B站up

文章图片
#人工智能#transformer#自然语言处理
大模型开发(一):LangChain的使用

进入2025年,大模型开发已经成为IT行业中最热门的赛道,本系列文章将介绍大模型的开发,在此之前,最好具备一些大模型的相关知识,比如知道提示词工程有哪些、提示词微调有哪些,什么是Agents,什么是Function Call等。LangChain 由 Harrison Chase 创建于2022年10月,它是围绕LLMs(大语言模型)建立的一个框架。

文章图片
#人工智能
大模型基础(二):GPT-2的高效训练

上篇文章,我们介绍了GPT-2的结构,本文我们来介绍一下GPT-2的高效训练,相关的训练技巧也可以用于其他模型的加速训练。本文依然参考的是Andrej Karpathy复现GPT-2的讲解视频,本文的硬件设备为 RTX 3060显卡,显卡必须是30及以上系列,关于分布式的部分,则至少需要2张显卡。为了对比,我们把上篇文章复现GPT-2的代码,放到 model.py文件中,后续需要调用模型的时候,直

文章图片
#人工智能#自然语言处理
大模型开发(五):P-Tuning项目——新零售决策评价系统(下)

上篇文章我们介绍了使用PET方式微调BERT模型,PET属于提示词微调的一种,另一种比较常见的提示词微调是P-Tuning,我们今天在相同的项目上面用P-Tuning看看。

文章图片
#人工智能
大模型开发(六):LoRA项目——新媒体评论智能分类与信息抽取系统

微调里面,用的最多的是 LoRA 微调,这是一种参数高效微调的方式。这个项目我要完成两个工作,一是文本分类,二是信息抽取,分类我们前面已经讲过了,这里重点介绍以下信息抽取:信息抽取的目的是获得知识图谱(即实体和实体之间的关系),圆圈表示实体,连线表示关系。图中左边时预训练过程,这个我们稍后介绍数据处理的时候会介绍。所谓的LoRA微调,就是给预训练模型的线性层加一个旁支,比如原来是,现在变成了,这里

文章图片
#人工智能
大模型基础(三):Llama3复现

Llama 3,是Meta公司发布的大型语言模型,虽然能力上不如GPT4,但因为GPT4不开源,所以截至2024年4月,它也是最强的开源大模型。Llama3 有 8B 和 70B 两个版本。无论哪一个,我们都不可能成功复现出来,所以今天我们只实现一个mini版本,即原模型有的结构这里都有,但层数和维度都做了简化,其中隐藏层维度由4096降为1024,解码层数量由32降为2。本文的内容参考了B站up

文章图片
#人工智能#transformer#自然语言处理
大模型开发(四):PET项目——新零售决策评价系统(上)

上篇文章我们介绍了使用全量微调构建医疗问诊机器人,比较常用的微调还有提示词微调(Prompt微调)、PEFT,而Prompt微调用的比较多有PET和P-Tuning,而我们今天介绍的项目,就是使用PET的方式微调大模型。PET的全称是Pattern-Exploiting Training,主要用来做文本分类(Prompt微调基本都是文本分两类),它是通过构建提示词模板(硬模版,需要我们自己指定模板

文章图片
#零售#人工智能
    共 25 条
  • 1
  • 2
  • 3
  • 请选择