写在前面

仅作个人学习记录用。本文主要记录开源的金融领域的LLM和对其的一些思考。

一、什么是垂直领域LLM

大语言模型(Large Language Model, LLM)一般可以分为通用LLM和垂直领域LLM。

通用LLM就是使用大量通用的文本数据进行预训练的LLM,通常会具备跨任务的泛用性和跨领域的泛用性的特点。

垂直领域LLM则是指在特定的领域或行业中,使用行业数据经过训练或者微调、优化的LLM。与通用LLM相比,垂直领域LLM更加关注特定领域的专业知识和技能,因此具有更高的专业性和实用性。垂直领域LLM其实也可以描述为通用LLM在行业领域内的应用,为解决行业问题利用行业数据训练或微调出的模型。

同时有人认为,用一个7B/13B的模型架构完全用领域数据训练的LMM,参数量足够大,数据完全用的是行业数据,这样一个垂直领域的模型其实不能算作大模型,因为跨领域通用以及追求通用的过程中涌现出来的能力。有人则持完全相反的观点,预训练才是真正知识灌输阶段,让模型真正学习领域知识,不能只是微调而必须是从头开始预训练。当然仁者见仁智者见智,不过从目前的客观情况来说,只使用垂直领域数据预训练出的LLM寥寥无几,大部分垂直领域LLM仍然是在通用数据或者通用LLM的基础上训练出的。

二、为什么我们需要金融垂直领域LLM

GPT-4,ChatGPT在ToC端的影响力无可置疑,此外还有各大科技公司紧跟其步伐穷追不舍,BlenderBot-3、Llama2-Chat等ToC端聊天产品相继推出。国内大厂也开发出了文心一言、通义千问等产品。ToC市场格局已然基本稳定,ToB市场自然成为了亟待开发的蓝海。而当LLM开发的目标移向ToB市场时,谁能在本地化部署、领域内效果、国产化等方面表现亮眼,谁就更可能占得先机。

因此,金融领域作为ToB市场中非常重要的一部分,理应需要优秀的垂直领域LLM。但随着通用LLM底层能力越来越强,在解决垂直领域问题时,用户难免不会产生疑问:“为什么不能使用In-Context Learning或仅仅构造垂直领域prompt,来提升通用LLM在垂直领域上的效果,那么训练垂直领域LLM是否还有必要?”

我认为是需要的,尤其是金融领域的LLM。从现实上来说,考虑ToB市场绕不开的成本问题,较小参数量的垂直领域LLM(如7B/13B)在该领域的表现一般是超过通用LLM的。若参数量继续增加(如100B以上),通用LLM的表现虽然会超过垂直领域LLM,但在大模型私有化的下一个浪潮下,对应的成本也是惊人的。(当然,“How large is a Large Language Model” 这种对参数量的讨论就是另一个问题了)

除此之外,我认为还有重要的一点是行业领域的信息壁垒。GPT-4这样的模型性能远超目前一般的垂直领域LLM,部分原因可能是喂给GPT-4的垂直领域数据或许比给垂直领域LLM的一些数据质量还要高、数量还要多。反向思考一下,金融领域的数据往往包含大量的敏感信息,由于行业领域的信息壁垒造成的某些高质量的、通用LLM接触不到的垂直领域数据的私有、不公开,垂直领域LLM正好可以利用起来。

三、金融垂直领域LLM汇总

本部分主要按照垂直领域LLM的类型分类来记录一些开源或未开源的金融LLM,同时也列举出了一些可以应用于金融领域的垂直领域LLM模型范式。除了本部分列举出的金融垂直领域LLM以外,一些未写入的工业级金融LLM也值得注意,例如AntFinGLM、盘古金融大模型等。

1. 基于垂直领域数据对通用LLM微调

1.1 FinGPT

Github: https://github.com/AI4Finance-Foundation/FinGPT

在这里插入图片描述

  • 简介:FinGPT采用以数据为中心的方法,为研究人员和从业者提供可访问和透明的资源。此外还展示了几个潜在的应用程序,例如机器人咨询、算法交易和低代码开发。
  • 训练方法:基于ChatGLM-6B,采用LORA方法微调训练模型。

1.2 DISC-FinLLM

Github: https://github.com/FudanDISC/DISC-FinLLM

在这里插入图片描述

  • 简介:DISC-FinLLM 是一个专门针对金融场景下为用户提供专业、智能、全面的金融咨询服务的金融领域大模型,是由面向不同金融场景的4个模组:金融咨询、金融文本分析、金融计算、金融知识检索问答构成的多专家智慧金融系统。
  • 训练方法:基于金融数据集DISC-Fin-SFT在通用领域中文大模型Baichuan-13B-Chat上进行LoRA指令微调。

1.3 PIXIU(貔貅)

GitHub: https://github.com/chancefocus/PIXIU

  • 简介:PIXIU框架包括一个基于带有指令数据的微调LLaMA的金融LLM,包含支持微调的136K数据样本的指令数据,以及包含5个任务和9个数据集的评估基准。
  • 训练方法:在LLaMA-7B和LLaMA-30B的基础上进行微调。

1.4 Cornucopia(聚宝盆)

Github: https://github.com/jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese

在这里插入图片描述

  • 简介:基于 LLaMA 系基模型经过中文金融知识指令精调/指令微调(Instruct-tuning) 的微调模型。通过中文金融公开问答数据+爬取的金融问答数据构建指令数据集,并在此基础上对 LLaMA 系模型进行了指令微调,提高了 LLaMA 在金融领域的问答效果。
  • 训练方法:基于 Chinese-LLaMA、Meta-LLaMA 和中文金融数据进行LORA微调训练模型。

1.5 XuanYuan(轩辕)

Github: https://github.com/Duxiaoman-DI/XuanYuan

在这里插入图片描述

  • 简介:XuanYuan-70B 是基于Llama2-70B模型进行中文增强的一系列金融大模型,包含大量中英文语料增量预训练之后的底座模型以及使用高质量指令数据进行对齐的chat模型;XuanYuan-176B是国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型,它不仅可以应对通用领域的问题,也可以解答与金融相关的各类问题,为用户提供准确、全面的金融信息和建议。
  • 训练方法:;XuanYuan-70B 基于Llama2-70B、XuanYuan-176B基于BLOOM-176B,针对中文通用领域和金融领域进行了针对性的预训练与微调

2. 使用垂直领域和通用数据混合预训练/二次训练垂直领域LLM

2.1 BloombergGPT

  • 简介:BloombergGPT专门针对广泛的金融数据开展预训练,以支持金融行业内多样化的自然语言处理任务。训练的数据集是由两部分组成的:一部分是来自彭博社自身的金融数据,另一部分是来自公开的金融数据。彭博社的金融数据包括新闻、分析报告、交易数据、公司数据、宏观经济数据等。这些数据都经过清洗、标注,以保证质量和一致性。BloombergGPT将协助彭博改进现有的金融NLP任务,如情感分析、命名实体识别、新闻分类和问答等任务。【论文链接】
  • 训练方法:大型预训练语言模型,其核心架构基于BLOOM模型的自回归结构,具体包含了70层transformer decoder。

2.2 LightGPT

申请试用网址:https://www.hs.net/lightgpt/#/index

  • 简介:LightGPT由恒生电子打造,使用了超4000亿tokens的金融领域数据和超过400亿tokens的语种强化数据,并以之作为大模型的二次预训练语料,支持超过80+金融专属任务指令微调,使LightGPT具备金融领域的准确理解能力。

2.3 BBT-FinT5

Github: https://github.com/ssymmetry/BBT-FinCUGE-Applications

  • 简介:在BBT-FinCorpus上预训练得到了约有两亿参数的BBT-FinT5-base和约有十亿参数的BBT-FinT5-large。此外还开源了中文金融领域开源语料库BBT-FinCorpus、中文金融领域自然语言处理评测基准CFLEB。
  • 训练方法:使用与T5-v1.1模型相同的模型架构进行预训练。

3. 领域知识库结合通用LLM进行知识问答

3.1 DashVector x 通义千问

教程:https://help.aliyun.com/document_detail/2510235.html

  • 简介:DashVector x LLM(通义千问)方法把提问的文本,和知识库的内容,都先转化为高质量向量,再通过向量检索将匹配过程转化为语义搜索,实现专属领域的知识问答
  • 训练方法:如教程所示,需要自己搭建本地金融知识库

3.2 Langchain x ChatGLM

github: https://github.com/chatchat-space/Langchain-Chatchat

  • 简介:LangChain-Chatchat (原 Langchain-ChatGLM)是一种利用 langchain 思想实现的基于本地知识库的问答应用,目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。
  • 训练方法:需要自己搭建本地金融知识库,加载知识库文件 -> 读取文本 -> 文本分割 -> 文本向量化 -> 问句向量化 -> 在文本向量中匹配出与问句向量最相似的 top k个 -> 匹配出的文本作为上下文和问题一起添加到 prompt中 -> 提交给 LLM生成回答

参考

[1] 【LLM系列】对行业大模型的思考
[2] 解决大模型“裸”奔,恒生打通落地金融“最后一公里”
[3] 垂直领域大模型的一些思考及开源模型汇总
[4] 大模型的下一次跃进:私有化 | 见智研究
[5] 大模型系列|垂直大模型的几种训练策略(一)

Logo

欢迎加入我们的广州开发者社区,与优秀的开发者共同成长!

更多推荐