本系列目录

《带你自学大语言模型》系列部分目录及计划,完整版目录见:带你自学大语言模型系列 —— 前言

第一部分 走进大语言模型(科普向)

第二部分 构建大语言模型(技术向)

第三部分 大语言模型应用

… …
欢迎关注同名公众号【陌北有棵树】,关注AI最新技术与资讯。

写在前面

在讲预训练数据时(2.4 大模型数据基础:预训练阶段数据详解 ——《带你自学大语言模型》系列)我们提过,数据的规模、质量和多样性对模型的效果有着极大的影响。从本质上来说,微调和训练本质上是在做一样的事情:改变模型参数,区别只在于量级和规模上面。

但是在微调阶段,一般需要的数据量比较少,同时数据会相对于聚焦在某一类特定任务上。但数据的质量和多样性仍然起着十分重要的作用。所以,构建指令数据是个精细化的过程。

本篇对微调阶段的数据集做一个详细的介绍,和预训练那篇一样,其实是工具属性较强,便于在需要微调的时候,能够快速知道自己需要的领域的数据集,该去哪里找就好。

好在昨晚九点改了计划写这篇,要是写之前计划的那篇,这周必然拖更了😂😂,一度本周想放弃,但是想到在催更群里每周一万字的承诺,还是坚持下来了,感谢催更群…以后不能老是拖到周日写,周日临时有事,于是就BBQ了,人跟系统一样,要有容错性…

本节目录

  • 2.5.1 微调数据集概述

  • 2.5.2 通用指令微调数据集

    • 2.5.2.1 人工生成数据集
    • 2.5.2.2 模型构建数据集
    • 2.5.2.3 收集和改进现有数据集
    • 2.5.2.4 使用多种方法创建的数据集
  • 2.5.3 特定指令微调数据集

    • 2.5.3.1 医疗领域
    • 2.5.3.2 代码领域
    • 2.5.3.3 金融领域
    • 2.5.3.4 IT领域
  • 2.5.4 特定指令微调数据集

  • 参考文献

2.5.1 微调数据集概述

指令微调数据集一般由“输入”和“输出”的文本对组成。“输入”是对模型的请求,包括分类、总结、重写等各种类型。“输出”是希望模型根据指令生成的、符合人类的期望的响应。这样构造的目的就是为了让模型能够学会这样一种范式,类似于形成一种固定记忆,也可以理解成这是你跟模型之间的一种“暗号”。

从领域上分类,指令微调数据集可以分为两大类:通用指令微调数据集和特定领域指令微调数据集。通用指令微调数据集没有领域限制,主要目的是提高模型的指令遵循能力。

在特定领域指令微调数据集中,指令会用专业数据专门设计。这一般是用于垂类模型的微调,目前比较常见的像是医疗领域,法律领域、金融领域。目前垂类大模型之所以集中在这几个领域,也是因为这几个领域本身信息的线上化程度就比较高,前些年的数字化积累,让他们更容易完成数据的获取。这也可以反推,很多领域想要AI化,数据线上化是前置条件。 在应用层找场景时需要考虑到这一点。

关于具体类别上,不同研究方法里会给出不同的分法,这里对这些分法做一个通用化的总结,可以分为15类:推理、数学、头脑风暴、封闭问答、开放问答、代码、提取、生成、重写、总结、翻译、角色扮演、社会规范和其他(备注:这里只关注单轮对话)

• 推理。从已知前提推导出新的判断,涉及逻辑推理和做出推断的假设,包括链式思维(CoT)、类比推理、归纳推理等过程。

• 数学。指令包含数学计算或数学推理。可以根据难度级别进行分类。

• 头脑风暴。围绕特定主题产生新的想法,提出创新的方法。答案通常以项目符号格式呈现。提供建议、给出推荐和类似的要求都属于头脑风暴。

• 封闭问答。根据提供的提示和问题选择正确的选项,或者直接或间接地从提供的文本信息中获得答案。

• 开放问答。对于开放问答指令,问题没有选项,答案不能直接从问题中找到。必须依赖自己的知识库来制定回答。这些问题可以包括具有标准答案的常识查询或没有预定义解决方案的开放式查询。

• 代码。关于代码的一切😂😂,包括但不限于代码生成、代码修正和代码理解。

• 提取。从给定内容中提取关键信息,包括命名实体识别(NER)、关系提取(RE)、事件提取等。

• 生成。根据问题的要求生成原始内容,如广告文案或文章。获取答案涉及从头开始创造过程。

• 重写。根据要求处理文本,包括单词转换、风格转换、文本排序、文本简化和扩展、上下文重写、句子重写、文本校正等。

• 总结。总结和压缩文本内容,或将内容提炼成标题。在总结时可以应用特定的约束。

• 分类。根据指定要求对信息进行分类或评级,如主题分类、质量评分等。

• 翻译。不同语言之间的翻译,包括各种民族语言之间的翻译,以及简体和繁体中文之间的翻译、方言翻译、古文翻译等。

• 角色扮演。让模型扮演特定角色以完成任务。它可以承担传统角色,如专家、名人,或非常规角色,如疯子、动物、编译器等。

• 社会规范。社会规范指令涉及道德和法律问题、个人隐私、偏见、歧视等。要求提供符合安全规范和人类价值观的答案。

• 其他。这一类可以涉及指示模型使用搜索引擎进行实时信息检索,或提供不合逻辑的指令,如“向右转”或“重复我说的话”。

下图给出15种类型指令微调数据的示例:
在这里插入图片描述

2.5.2 通用指令微调数据集

通用指令微调数据集根据其构建方法分为四类:人工生成数据集、模型构建数据集、收集和改进现有数据集以及使用多种方法创建的数据集。这几种方式各有优劣,所以接下来介绍每种方式时,都是首先比较其优缺点,然后介绍其构造方式。

2.5.2.1 人工生成数据集

人工生成数据集主要是人类标注者根据特定要求和规则手动创建和组织所有指令,不借助现有的大模型。

🪐🪐 优缺点


【优点】

• 高质量。数据集经过专业注释者的加工和审查,结果质量和清洁度更高。• 可解释性。经过人工处理后,数据集更容易解释,并且与人类理解更一致。• 灵活控制。研究人员可以灵活控制训练样本,以适应不同任务。

【缺点】

• 高成本和低效率。创建人工生成的数据集需要大量的人力和时间投入,与模型构建的替代方案相比,效率较低。• 主观性。人为主观判断可能会将偏见和不一致性引入数据集中。

🪐🪐 构造方式

通常有两种方法来构建人工生成的数据集。

第一种方法是直接由公司员工、志愿者、标注平台人员等根据给定的要求和规则创建指令集。 例如,Databricks-dolly-15K [68] 是由数千名Databricks员工根据 中概述的指令类别构建的。一些指令允许注释者参考Wikipedia数据作为参考文本。

OASST1 [2] 是通过全球众包方式生成的,有超过13.5K名志愿者参与注释过程。OL-CC [3] 是第一个通过众包和手动生成的开源中文指令数据集。在开放平台上,276名志愿者扮演人类用户和AI助手的角色,创建全面的文本对。Aya 数据集 [5] 是迄今为止最大的人工注释多语言指令微调数据集,目前正在使用 Aya 注释平台由来自119个国家的2,997名贡献者协作注释。
第二种方法是从网页上抓取人类生成的真实问答数据,并将其标准化为指令格式。 InstructionWild_v2 [6] 中的指令都是从网络上收集的,涵盖社交聊天、与代码相关的问答等。LCCC [7] 是一个中文对话数据集,主要通过抓取社交媒体上的用户通信记录来获取真实的对话。同样,Zhihu-KOL [4] 来自著名的中文社交媒体平台,知乎。

2.5.2.3 模型构建数据集

模型构建方法涉及使用LLM,采用各种方法指导其生成人类所需的指令数据。
🪐🪐 优缺点**
**【优点】• 数据丰富。LLMs可以生成大量的指令,特别是对于在现实世界场景中不常见的内容。• 成本效益和高效率。它降低了人工成本和时间,可以在短时间内获得大量数据。
【缺点】• 质量不一。生成内容的质量可能并不总是很高。模型可能会产生幻觉,导致指令不准确或不适当。同时,模型本身可能存在固有偏见,其输出可能不一定符合人类价值观。• 需要后处理。生成的样本需要额外的后处理,以确保它们在投入使用之前的质量和适用性。

🪐🪐 构造方式**
**通常有三种方法来构建模型训练数据集。
第一种方法是指导LLM输出符合预期的指令。 LLM被赋予某种身份(例如,专家问题设置者),以及指令生成的要求和示例。有下面这些数据集使用了这种方法:
(1)Self-Instruct [8] 是一个框架,它设置初始指令,自动生成指令样本,并迭代筛选它们。Self-Instruct 数据集使用175个手动编写的指令作为初始种子,使用这个框架生成了52K指令。(2)Alpaca data [9] 改进了这个框架,使用 text-davinci-003 生成了更多多样化的指令数据。BELLE_train_0.5M_CN、BELLE_train_1M_CN[10]、InstructionWild_v1 [6] 和 MOSS_002_sft_data [11] 也采用这种方法构建。
也可以选择其他表现良好的模型来构建指令数据集,比如 BELLE Generated Chat、BELLE Multiturn Chat、BELLE train 2M CN、BELLE train 3.5M CN、ChatGPT corpus[12]、Unnatural Instructions[13]、MOSS_003_sft_plugin_data [11] 等。
为了获得更高质量的指令,RedGPT-Dataset-V1-CN[14] 使用现有的LLM生成多轮对话。预训练的基础模型经过微调,得到的RedGPT模型 进一步用于指令生成,以迭代方式获得大量高质量数据。WebGLM-QA [15] 生成数据分为三个阶段:提示制定、指令引导和少样本上下文学习。Wizard_evol_instruct_196K [16] 和 Wizard evol instruct 70K 使用 Evol-Instruct 方法,将175个种子指令经过四个演化阶段,以增强生成指令的复杂性。
第二种方法是使用人类与LLMs之间的真实互动对话作为指令数据集。 例如,ShareGPT[17] 可以用于分享用户与ChatGPT之间的对话结果。ShareGPT90K [18] 和 OpenChat [19] 已经编译了数万个真实对话。ShareGPT-Chinese-English-90k[20] 提供了平行的中英文问答数据集。ShareChat [21] 将所有获取的ShareGPT数据翻译成中文。LMSYS-Chat-1M [22] 已经收集了2023年4月至8月期间来自25个LLMs的真实对话数据。在构建数据集时,可以采用上述两种方法的组合。例如,MOSS_003_sft_data [11] 包括MOSS-002模型的用户数据和GPT-3.5-Turbo生成的数据。
第三种方法是使用多个LLM代理进行对话,以获取对话数据。 CAMEL [23]引入了一个“角色扮演”框架,其中LLM生成元数据,创建了50个助手角色和用户角色,用于“AI社会”。UltraChat[24] 涉及多个ChatGPT API之间的交互对话。它使用LSTM[25]处理每一轮的输入和输出,同时使用注意力机制来模拟上下文信息。

2.5.2.3 收集和改进现有数据集

收集和改进现有数据集也是构建指令微调数据集的一种方法。这种方法涉及整合和修改几个开源数据集,最终将它们合并成一个新的数据集,用于LLM指令微调。

🪐🪐 优缺点

【优点】

• 多样性和全面性。生成的数据集具有丰富的数据来源、多样化的任务类型和广泛的领域覆盖。

• 大规模。选择的源数据集越多,规模就越大。

• 节省时间。减少了数据集构建所需的时间。

【缺点】

• 质量和格式标准化。需要全面考虑源数据集的质量,并标准化数据的格式。

• 数据集许可。必须注意不同源数据集的许可,以避免隐私和监管问题。

🪐🪐 实际数据集示例

CrossFit[26]。为了研究模型在任务中的少样本学习能力,组装了一个包含269个NLP任务数据集的集合,称为CrossFit,涵盖13种任务类型 。除了用于指令微调外,该数据集还用于研究模型的跨任务泛化和迁移学习能力。DialogStudio (Zhang et al, 2023c)。

DialogStudio [27] 数据集收集了87个开源数据集,涵盖六个主要任务类别。该数据集在整合每个子数据集的同时保留原始信息,专门为LLM指令微调研究设计。

Dynosaur [28] 数据集旨在研究指令微调数据的动态扩展。在构建过程中,重点是最大限度地降低维护成本,包含约802K数据实例。在构建过程中,使用现有NLP数据集的元数据生成各种NLP任务的指令,并确定构建数据集所需的必要数据字段此外,该数据集通过整合来自Hugging Face数据平台 的新数据集实现动态增长。

Flan-mini [29]。Flan-mini 数据集是从 Flan 2022 [30] 中选择的子集。它在减少整体数据集大小的同时保持了高任务多样性。该数据集包括 Flan 2022中的特定任务和额外的与代码相关的数据集。这里的每个指令都经过处理,随机添加了各种提示模板。

2.5.2.4 多种方法创建的数据集

通过上述三种方法的组合,可以生成四种组合方法来构建数据集:

(1)人工生成 & 收集和改进现有数据集

(2)人工生成 & 模型构建数据集

(3)收集和改进现有数据集 & 模型构建数据集

(4)人工生成 & 收集和改进现有数据集 & 模型构建数据集

🪐🪐 人工生成 & 收集和改进现有数据集

(1) 在收集其他数据集的数据的同时,手动创建数据以补充缺失的任务类型。Firefly [14] 收集了23个常见的中文NLP任务,并构建了与中国文化相关的众多任务,如对联、诗歌创作等。每个任务都伴随着手动编写的指令模板,以确保数据的高质量和丰富性。(2) 对收集到的数据进行手动筛选。LIMA-sft [31] 包括1330条由人类专家精心挑选和准备的指令,以验证高质量指令数据的重要性

🪐🪐 人工生成 & 模型构建数据集

结合人工编写的数据和用户-模型对话数据。InstructGPT-sft 数据集 [32]用于训练 InstructGPT 模型 ,有两个来源:一部分由注释者编写,另一部分由早期模型通过 API 提交的指令组成。

🪐🪐 收集和改进现有数据集 & 模型构建数据集

(1) 使用其他数据集作为指令输入,并选择不同的模型生成响应。Alpaca_GPT4_data [33] 使用 Alpaca_data [34] 的指令作为输入,使用 GPT-4 [35] 生成响应。Alpaca_GPT4_data_zh 和 Wizard_evol_instruct_zh 数据集 [36] 将英文指令翻译成中文,然后调用模型生成中文响应。

Bactrain-X [37] 使用翻译 API 将 Alpaca_data 和 databricks-dolly-15K 中的指令输入翻译成51种语言,然后输入到 ChatGPT 中以获得响应。

GPT4All [38] 使用五个公共数据集的指令作为输入,使用 GPT3.5-Turbo 生成响应。

GuanacoDataset[39] 将指令数据的语言从英文扩展到中文和日文。LaMini-LM[40] 使用模型同时生成与真实指令相对应的合成指令和响应。这些数据集参考现有指令,并通过模型进行二次构建。

(2) 使用开源数据集作为种子指令,指导模型生成对话。Baize [41] 从特定数据集中采样“种子”,允许 ChatGPT 进行自我对话,并批量生成高质量的多轮对话数据。对话涵盖一般领域和一些垂直领域。

(3) 直接使用现有数据构建输入-输出文本对。LongForm [42] 使用 LLM 为现有预训练语料库文档生成完整的指令,然后使用结构化语料库示例和任务实例进行扩展。Luotuo-QAB[43] 指示模型为来自三个数据集的摘要或新闻内容生成五个输入-输出文本对。

🪐🪐 人工生成 & 收集和改进现有数据集 & 模型构建数据集

以下的数据集结合了前几节中提到的三种构建方法。相关信息如下。

(1) COIG [44]。COIG 数据集包含191K中文指令,分为五种类型。翻译指令来源于开源数据集,翻译过程包括三个阶段:自动翻译、人工验证和人工校正。考试指令主要来源于中国高考、中考和公务员考试。人类价值对齐指令包括两个系列——一个侧重于中国地区的一般人类价值对齐,另一个侧重于特定国家或区域文化中的人类价值对齐。反事实校正多轮聊天基于CN-DBpedia知识图谱数据集[45]构建,解决LLMs中的幻觉问题。Leetcode指令收集了与编程相关的提示。

(2) HC3 [46]。HC3 数据集有中文版本和英文版本,共有37K QA对。该数据集旨在比较不同领域中人类专家和ChatGPT之间的响应。它可以用于指令微调、人类价值对齐、模型响应特性等领域的研究。

(3) Phoenix-sft-data-v1 [47]。Phoenix-sft-data-v1 数据集包含464K多语言对话数据,主要分为两部分:单轮指令和多轮对话。单轮指令包括来自Alpaca的中英文指令、翻译的多语言指令和用户生成的多语言指令。多轮对话主要来自ShareGPT和Discord。

(4) TigerBot_sft_en & TigerBot_sft_zh [48]。这两个数据集是TigerBot 的微调数据,包含大量收集的开源数据和自行开发的数据。数据集的构建主要遵循五个原则:基于指令的分布,注释和总结10个指令类别和120个子任务类型;使用 Self-Instruct 方法生成指令;基于手动问题生成、网络搜索等方法组织问答数据;根据公共数据集转换和清洗格式;整体数据分布符合指令的自然分布。

(5) Aya Collection [49] 是一个全面且大型的数据集集合,旨在训练多语言模型,面向全球研究人员。它包括三个主要来源的数据:模板数据、翻译数据和 Aya 数据集。

2.5.3 特定领域指令微调数据集

特定领域指令微调数据集是为特定领域构建的,通过制定包含与该领域密切相关的知识和任务类型的指令。在特定领域指令微调数据集上对预训练基础模型进行微调后,可以将其应用于该领域内的各种场景任务,并表现出卓越的性能。

特定领域指令微调数据集涉及下面这些类别:医疗、代码、法律、数学、教育、金融、IT、交通等等。由于类别比较多且杂,本文只对部分类别进行了整理和列举。

2.5.3.1 医疗领域

目前,中英文医疗任务的开源大型模型比较多。它们都构建了医疗领域的指令微调数据集,用于监督式微调,展现出了出色的泛化能力。在某些情况下,性能甚至接近特定场景下的专业医生。

CMtMedQA [50] 和 MedDialog [53] 专门使用真实的医生-患者多轮对话,其中所有指令都属于真实世界场景数据。相比之下,ChatMed_Consult_Dataset [51]和 ShenNong_TCM_Dataset [52]采用 Self-Instruct 方法,利用模型生成医疗问答数据。前者专注于医疗咨询,而后者专注于中医知识问答。

一些数据集从开放源代码数据(如知识库和论坛)中收集和整理。例如,Huatuo-26M [54] 有多个来源,包括医疗百科问答、医疗知识图谱和医生-患者问答。QiZhenGPT-sft-20k[55]根据 Qizhen 医疗知识库的内容制定指令。Medical-sft [56] 合并了几个中文和英文医疗数据集,包括 ChatDoctor[37] 和 QiZhenGPT-sft-20k 等。除此之外,一些数据集可能包括真实和合成数据的组合,或根据现有数据集进行手动整理。ChatDoctor 和 HuatuoGPT-sft-data-v1 [58] 在收集真实的医生-患者对话的同时,结合了 ChatGPT 的对话数据和疾病数据库的信息。DISC-Med-SFT[59] 和 Medical Meadow[60]精心选择了几个数据源,经过一定程度的重建,以提高数据集的整体质量。

2.5.3.2 代码领域

代码指令微调数据集的目的是提高LLMs在代码生成和工具调用等任务上的能力。一些数据集专注于为代码生成任务量身定制的指令。

CommitPackFT[61]提取了涵盖350种编程语言的代码文件,严格过滤并保留了277种编程语言的代码指令数据。Code Alpaca 20K [62]遵循 Alpaca_data的构建方法,生成了20K条指令,用于微调 Code Alpaca 模型。

CodeContest [63] 合并了从 Codeforces、Description2Code和 CodeNet 收集的数据。

此外,一些数据集强调了工具调用任务的指令。ToolAlpaca [65] 通过构建多代理模拟环境,创建了一个高度多样化的工具使用数据集,用3,928个实例微调模型。ToolBench [64] 的构建涉及三个阶段:API收集、指令生成和解决方案路径注释,旨在为工具使用指令微调模型。

2.5.3.3 金融领域

DISC-Fin-SFT[66] 是一个高质量的中文金融数据集。它用于在 Baichuan-13B-Chat 模型上进行 LoRA 微调,最终产生了金融 LLM DISC-FinLLM。该数据集包含246K条指令,分为四种类型:金融咨询、金融任务、金融计算和检索增强。数据来源多样,包括金融NLP数据集、手动策划的Q&A对和模型生成的对话,部分数据集目前开源。

2.5.3.4 IT领域

Owl-Instruction [67] 用于 Owl 模型的指令微调。这些指令专门设计用于处理 IT 相关任务,如故障排除、日志分析等。数据集的构建涉及四个阶段:数据生成、GPT-4 过滤、人工验证和监督式微调。它包含18K条单轮和多轮指令。

2.5.4 指令微调数据集的分布统计

在《Datasets for Large Language Models: A Comprehensive Survey》[1]这篇论文中,作者对当前的指令微调数据集做了统计与分析,整体得出以下6个结论:

(1) 下图研究的是发布时间的趋势。随着大模型时代到来,指令微调数据集的数量呈增长趋势。从图中可以得出结论,指令微调范式的应用促进了指令微调数据集的构建和开源。

在这里插入图片描述

(2) 下图反映的不同许可证下数据集的分布。数据许可在一定程度上反映了数据集的开放性和可访问性,目前反映了开发者倾向于开放和共享数据。对于指令微调数据集,Apache-2.0许可是最常用的,涵盖了43个数据集,其次是GPL-3.0许可和MIT许可。

在这里插入图片描述

(3) 下图主要是不同数据规模的分布。大多数指令微调数据集集中在10K到1M之间。这表明,在实际应用中,这个规模的数据集足以满足需求。然而,规模较小和较大的数据集相对较少,反映了两端的挑战和稀缺性。小规模数据集强调质量,但可能缺乏类别丰富性,而大规模数据集提供多样性,但可能受到计算资源的限制,并可能受到数据冗余的影响。

在这里插入图片描述

(4) 下图是不同构建方法的分布。「使用模型构建指令」的方法在构建数据集中最普遍,突出了其在数据集创建中的潜力。这类数据集的质量主要依赖于模型的性能和构建期间的指导。第二种最常见的方法是「收集现有数据集并改进」。相比之下,人工生成的数据集数量相对较少,主要是由于效率和成本考虑。有22个数据集采用不同方法的组合来进一步提高数据集质量,说明这也是一种发展趋势。

在这里插入图片描述

(5) 下图是不同语言的数据集的分布。英文和中文指令数据集在研究中占据重要地位,获得了更多的关注。混合中文和英文以及多语言数据集的数量相当可观,表明跨语言研究正成为一个焦点。与特定应用场景相关的编程语言开源指令数据集相对稀缺。

在这里插入图片描述

(6) 下图是不同领域数据集的分布。通用领域数据集的数量为67,占比最高,说明各个应用场景中都对指令微调具有广泛需求。其他领域如医疗、编程、法律等也有一些数据集。然而,其余领域数据集还是偏少。

在这里插入图片描述

注:本篇的大部分内容参考自《Datasets for Large Language Models: A Comprehensive Survey》[1]这篇论文,感谢大佬们的系统整理。

参考文献
[1]Liu Y, Cao J, Liu C, et al. Datasets for large language models: A comprehensive survey[J]. arXiv preprint arXiv:2402.18041, 2024.
[2] Wang G, Cheng S, Zhan X, Li X, Song S, Liu Y (2023a) OpenChat: Advancing opensource language models with mixed-quality data. arXiv preprint arXiv:2309.11235
[3] https://data.baai.ac.cn/details/OL-CC
[4] https://github.com/wangrui6/Zhihu-KOL
[5] Singh S, Vargus F, Dsouza D, Karlsson BF, Mahendiran A, Ko WY, et al (2024) Aya Dataset: An open-access collection for multilingual instruction tuning. arXiv preprint arXiv:2402.06619
[6] Ni J, Xue F, Deng Y, Phang J, Jain K, Shah MH, et al (2023) Instruction in the wild:
A user-based instruction dataset. https://github.com/XueFuzhao/InstructionWild
[7] Wang Y, Ke P, Zheng Y, Huang K, Jiang Y, Zhu X, et al (2020b) A large-scale Chinese short-text conversation dataset. In: Zhu X, Zhang M, Hong Y, He R (eds) Natural Language Processing and Chinese Computing. Springer International Publishing, Cham, pp 91–103
[8] Wang Y, Kordi Y, Mishra S, Liu A, Smith NA, Khashabi D, et al (2023f) Self-Instruct: Aligning language model with self generated instructions. In: Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics, vol 1. ACL, pp 13484–13508, https://doi.org/10.18653/v1/2023.acl-long.754
[9] Taori R, Gulrajani I, Zhang T, Dubois Y, Li X, Guestrin C, et al (2023) Stanford Alpaca: An instruction-following LLaMA model. https://github.com/tatsu-lab/stanford_alpaca
[10] BELLEGroup (2023) BELLE: Be everyone’s large language model engine. https://github.com/LianjiaTech/BELLE
[11] Sun T, Zhang X, He Z, Li P, Cheng Q, Yan H, et al (2023b) MOSS: Training conversational language models from synthetic data. https://github.com/OpenLMLab/MOSS
[12] https://github.com/PlexPt/chatgpt-corpus
[13] Honovich O, Scialom T, Levy O, Schick T (2023) Unnatural Instructions: Tuning language models with (almost) no human labor. In: Rogers A, Boyd-Graber J, Okazaki N (eds) Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). ACL, Toronto, Canada, pp 14409–14428, https://doi.org/10.18653/v1/2023.acl-long.806
[14] Yang J (2023) Firefly: Chinese conversational large language models. https://github.com/yangjianxin1/Firefly
[15] Liu X, Lai H, Yu H, Xu Y, Zeng A, Du Z, et al (2023e) WebGLM: Towards an efficient web-enhanced question answering system with human preferences. In: Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. Association for Computing Machinery, New York, NY, USA, pp 4549—-4560
[16] Xu C, Sun Q, Zheng K, Geng X, Zhao P, Feng J, et al (2023b) WizardLM: Empowering large language models to follow complex instructions. arXiv preprint arXiv:2304.12244
[17] https://sharegpt.com/
[18] https://huggingface.co/datasets/RyokoAI/ShareGPT52K
[19] Wang G, Cheng S, Zhan X, Li X, Song S, Liu Y (2023a) OpenChat: Advancing opensource language models with mixed-quality data. arXiv preprint arXiv:2309.11235
[20] https://huggingface.co/datasets/shareAI/ShareGPT-Chinese-English-90k
[21] https://paratranz.cn/projects/6725
[22] XZheng L, Chiang WL, Sheng Y, Li T, Zhuang S, Wu Z, et al (2023a) LMSYS-Chat-1M: A large-scale real-world LLM conversation dataset. arXiv preprint arXiv:2309.11998
[23] Li G, Hammoud HAAK, Itani H, Khizbullin D, Ghanem B (2023b) CAMEL: Communicative agents for “mind” exploration of large language model society. In:Thirty-seventh Conference on Neural Information Processing Systems, pp 1–18
[24] Ding N, Chen Y, Xu B, Qin Y, Hu S, Liu Z, et al (2023) Enhancing chat language models by scaling high-quality instructional conversations. In: Bouamor H, Pino J, Bali K (eds) Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. ACL, Singapore, pp 3029–3051, https://doi.org/10.18653/v1/2023.emnlp-main.183
[25] Hochreiter S, Schmidhuber J (1997) Long short-term memory. Neural Computation9(8):1735–1780
[26] Ye Q, Lin BY, Ren X (2021) CrossFit: A few-shot learning challenge for crosstask generalization in NLP. In: Moens MF, Huang X, Specia L, Yih SWt (eds) Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. ACL, Online and Punta Cana, Dominican Republic, pp 7163–7189, https://doi.org/10.18653/v1/2021.emnlp-main.572
[27] Zhang J, Qian K, Liu Z, Heinecke S, Meng R, Liu Y, et al (2023c) DialogStudio: Towards richest and most diverse unified dataset collection for conversational AI. arXiv preprint arXiv:2307.10172
[28] Yin D, Liu X, Yin F, Zhong M, Bansal H, Han J, et al (2023a) Dynosaur: A dynamic growth paradigm for instruction-tuning data curation. In: The 2023 Conference on Empirical Methods in Natural Language Processing, pp 1–17
[29] Ghosal D, Chia YK, Majumder N, Poria S (2023) Flacuna: Unleashing the problem solving power of Vicuna using FLAN fine-tuning. arXiv preprint arXiv:2307.02053
[30] Longpre S, Hou L, Vu T, Webson A, Chung HW, Tay Y, et al (2023a) The FLAN collection: Designing data and methods for effective instruction tuning. In: Proceedings of the 40th International Conference on Machine Learning. JMLR.org, pp22631–22648
[31] Zhou C, Liu P, Xu P, Iyer S, Sun J, Mao Y, et al (2023a) LIMA: Less is more for alignment. arXiv preprint arXiv:2305.11206
[32] Ouyang L, Wu J, Jiang X, Almeida D, Wainwright C, Mishkin P, et al (2022) Training language models to follow instructions with human feedback. In: Koyejo S, Mohamed S, Agarwal A, Belgrave D, Cho K, Oh A (eds) Advances in Neural Information Processing Systems, vol 35. Curran Associates, Inc., pp 27730–27744
[33] Peng B, Li C, He P, Galley M, Gao J (2023) Instruction tuning with GPT-4. arXiv preprint arXiv:2304.03277
[34] Taori R, Gulrajani I, Zhang T, Dubois Y, Li X, Guestrin C, et al (2023) Stanford Alpaca: An instruction-following LLaMA model. https://github.com/tatsu-lab/stanford_alpaca
[35] Achiam J, Adler S, Agarwal S, Ahmad L, Akkaya I, Aleman FL, et al (2023) GPT-4 technical report. arXiv preprint arXiv:2303.08774
[36] Ziang Leng QC, Li C (2023) Luotuo: An instruction-following Chinese language model, LoRA tuning on LLaMA. https://github.com/LC1332/Chinese-alpaca-lora
[37] Li H, Koto F, Wu M, Aji AF, Baldwin T (2023c) Bactrian-X: A multilingual
replicable instruction-following model with low-rank adaptation. arXiv preprint arXiv:2305.15011
[38] Anand Y, Nussbaum Z, Treat A, Miller A, Guo R, Schmidt B, et al (2023) GPT4All: An ecosystem of open source compressed language models. arXiv preprint arXiv:2311.04931
[39] https://guanaco-model.github.io/
[40] Wu M, Waheed A, Zhang C, Abdul-Mageed M, Aji AF (2023) LaMini-LM: A diverse herd of distilled models from large-scale instructions. arXiv preprint arXiv:2304.14402
[41] Xu C, Guo D, Duan N, McAuley J (2023a) Baize: An open-source chat model with parameter-efficient tuning on self-chat data. In: Bouamor H, Pino J, Bali K (eds) Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. ACL, Singapore, pp 6268–6278, https://doi.org/10.18653/v1/2023.emnlp-main.385
[42] K¨oksal A, Schick T, Korhonen A, Sch¨utze H (2023) Longform: Optimizing instruction tuning for long text generation with corpus extraction. arXiv preprint arXiv:2304.084603
[43] Liao J, Sun A, Luo Q, Huang H, Li C (2023) Luotuo-QA: Better conversational question answering model with answer completion. https://github.com/LC1332/Luotuo-QA
[44] Zhang G, Shi Y, Liu R, Yuan R, Li Y, Dong S, et al (2023a) Chinese open instruction generalist: A preliminary release. arXiv preprint arXiv:2304.07987

[45] Xu B, Xu Y, Liang J, Xie C, Liang B, Cui W, et al (2017) CN-DBpedia: A neverending Chinese knowledge extraction system. In: Benferhat S, Tabia K, Ali M (eds) Advances in Artificial Intelligence: From Theory to Practice. Springer International Publishing, Cham, pp 428–438

[46] Guo B, Zhang X, Wang Z, Jiang M, Nie J, Ding Y, et al (2023a) How close is ChatGPT to human experts? Comparison corpus, evaluation, and detection. arXiv preprint arXiv:2301.07597

[47] Chen Z, Jiang F, Chen J, Wang T, Yu F, Chen G, et al (2023d) Phoenix: Democratizing ChatGPT across languages. arXiv preprint arXiv:2304.10453

[48] Chen Y, Cai W, Wu L, Li X, Xin Z, Fu C (2023c) TigerBot: An open multilingual multitask LLM. arXiv preprint arXiv:2312.08688

[49] Singh S, Vargus F, Dsouza D, Karlsson BF, Mahendiran A, Ko WY, et al (2024) Aya Dataset: An open-access collection for multilingual instruction tuning. arXiv preprint arXiv:2402.06619

[50] Yang S, Zhao H, Zhu S, Zhou G, Xu H, Jia Y, et al (2023d) Zhongjing: Enhancing the Chinese medical capabilities of large language model through expert feedback and real-world multi-turn dialogue. arXiv preprint arXiv:2308.03549
[51] Zhu W, Wang X (2023) ChatMed: A Chinese medical large language model. https://github.com/michael-wzhu/ChatMed
[52] Wei Zhu WY, Wang X (2023) ShenNong-TCM: A traditional Chinese medicine large language model. https://github.com/michaelwzhu/ShenNong-TCM-LLM
[53] Zeng G, Yang W, Ju Z, Yang Y, Wang S, Zhang R, et al (2020) MedDialog: Large-scale medical dialogue datasets. In: Webber B, Cohn T, He Y, Liu Y (eds) Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). ACL, pp 9241–9250, https://doi.org/10.18653/v1/2020.emnlp-main.743
[54] Li J, Wang X, Wu X, Zhang Z, Xu X, Fu J, et al (2023h) Huatuo-26M, a large-scale Chinese medical QA dataset. arXiv preprint arXiv:2305.01526
[55] https://github.com/CMKRG/QiZhenGPT
[56] https://github.com/shibing624/MedicalGPT
[57] Li Y, Li Z, Zhang K, Dan R, Jiang S, Zhang Y (2023l) ChatDoctor: A medical chat model fine-tuned on a large language model Meta-AI (LLaMA) using medical domain knowledge. Cureus 15(6)
[58] Zhang H, Chen J, Jiang F, Yu F, Chen Z, Chen G, et al (2023b) HuatuoGPT, towards taming language model to be a doctor. In: Bouamor H, Pino J, Bali K (eds) Findings of the Association for Computational Linguistics: EMNLP 2023. Association for Computational Linguistics, Singapore, pp 10859–10885, https://doi.org/10.18653/v1/2023.findings-emnlp.725
[59] Bao Z, Chen W, Xiao S, Ren K, Wu J, Zhong C, et al (2023) DISC-MedLLM: Bridging general large language models and real-world medical consultation. arXiv preprint arXiv:2308.14346
[60] Han T, Adams LC, Papaioannou JM, Grundmann P, Oberhauser T, Loser A, et al (2023) MedAlpaca–An open-source collection of medical conversational AI models and training data. arXiv preprint arXiv:2304.08247
[61] Muennighoff N, Liu Q, Zebaze A, Zheng Q, Hui B, Zhuo TY, et al (2023a) OctoPack: Instruction tuning code large language models. In: NeurIPS 2023 Workshop on Instruction Tuning and Instruction Following, pp 1–59
[62] Chaudhary S (2023) Code Alpaca: An instruction-following LLaMA model for code generation. https://github.com/sahil280114/codealpaca
[63] Li Y, Choi D, Chung J, Kushman N, Schrittwieser J, Leblond R, et al (2022a) Competition-level code generation with AlphaCode. Science 378(6624):1092–1097. https://doi.org/10.1126/science.abq1158
[64] Anonymous (2024) ToolLLM: Facilitating large language models to master 16000+ real-world APIs. In: The Twelfth International Conference on Learning Representations, pp 1–24
[65] Tang Q, Deng Z, Lin H, Han X, Liang Q, Sun L (2023) ToolAlpaca: Generalized tool learning for language models with 3000 simulated cases. arXiv preprint arXiv:2306.05301
[66] Chen W, Wang Q, Long Z, Zhang X, Lu Z, Li B, et al (2023a) DISC-FinLLM: A Chinese financial large language model based on multiple experts fine-tuning. arXiv preprint arXiv:2310.15205

[67] Guo H, Yang J, Liu J, Yang L, Chai L, Bai J, et al (2023b) OWL: A large language model for it operations. arXiv preprint arXiv:2309.09298

[68] Conover M, Hayes M, Mathur A, Xie J, Wan J, Shah S, et al (2023) Free Dolly: Introducing the world’s first truly open instruction-tuned LLM. https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm

惯例结尾放一棵树

在这里插入图片描述

Logo

纵情码海钱塘涌,杭州开发者创新动! 属于杭州的开发者社区!致力于为杭州地区的开发者提供学习、合作和成长的机会;同时也为企业交流招聘提供舞台!

更多推荐