maximejia 个人主页

@maximejia

maximejia

2022-11-25 17:21:14 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大模型基础理论学习笔记——大模型法律

本文主要介绍了部分大模型有关的法律法规，主要围绕大型语言模型的生命周期中的“数据”和“应用”两个部分进行讨论。在相关法律法规方面，主要以美国相关法案为依据，讨论了版权法以及隐私法律的一些法案。大语言模型的生成性可能会对争论公平使用提出挑战（可以与人类竞争）。在什么水平上进行调控（语言模型还是下游应用）是有意义的，如何控制才是最有效的，仍需要深入的法律和人工智能专业知识支撑做出明智的决定。

#学习 #人工智能 #语言模型 +2

大模型基础理论学习笔记——大模型适配

本文主要介绍了大模型适配的基础要素（包括预训练模型、下游任务数据集、适配参数、任务损失函数以及优化问题等）、大模型适配的主流方法，主要包括探针方法、微调方法和轻量级微调方法，参考原始论文及扩展文献，对上述主流方法的实现原理进行了深入探讨，并介绍了各个方法的特征及适用问题范围。后续，在大模型基础理论方面的学习完成后，拟进行进一步实践研究，基于现有工作，研究大模型的预训练与微调等的落地实践，以及对灵活

#学习 #人工智能 #自然语言处理 +1

大模型基础理论学习笔记——大模型基础

本文对语言大模型，特别是自回归语言大模型的基础进行了简介，以支撑后续对大模型技术的深入研究与探讨。

#自然语言处理 #nlp #语言模型

大模型基础理论学习笔记——大模型法律

#学习 #人工智能 #语言模型 +2

大模型基础理论学习笔记——分布式训练

本文主要介绍了深度学习分布式训练，从大模型训练的角度出发，讨论了深度神经网络分布式训练的缘起，常见的分布式训练策略，具体包括数据分布式、模型分布式和混合分布式，以及各种分布式策略的适用范围和使用方式。同时，我们还对基于Pytorch的数据分布式训练模式进行了探索，一方面，介绍了其具体原理，另一方面，也通过对代码的研读展现了具体实现过程，为后续实际开展分布式训练奠定基础。

#分布式 #自然语言处理 #语言模型

大模型基础理论学习笔记——大模型训练

本文主要介绍了大模型训练（主要是预训练）方法，包括目标函数和优化算法连个部分。在目标函数部分，按照是否包含编码器、解码器划分的三类语言模型，参考原始论文，对三类不同架构模型的训练数据构建、训练过程、训练方法、以及训练目标函数设定进行了探讨，一方面，回顾了三类模型的典型架构，另一方面，探讨了三类架构模型的预训练方法，对基于Transformer架构的大模型预训练过程有了进一步清晰的梳理。在优化算法部

#nlp #语言模型 #深度学习 +2

大模型RAG技术学习——RAG技术基础

RAG（检索增强生成）技术融合信息检索与文本生成，通过动态检索外部知识库提升大型语言模型输出的准确性和实时性。其核心流程包括索引构建、语义检索和上下文生成三个阶段，技术演进从基础RAG发展到支持多轮检索、查询重写的高级RAG，再到模块化RAG实现复杂场景支持。RAG的关键优势包括降低模型幻觉、支持知识溯源、减少微调成本，并具有良好的可扩展性。构建RAG系统需完成数据准备、索引构建、检索优化和生成集

#学习 #AIGC #人工智能

大模型基础理论学习笔记——大模型能力

本文主要深入探讨GPT-3大语言模型，这个具有代表性的语言模型的能力。一方面，本文介绍了语言模型适应性、评估与评价的关键指标，另一方面，本文也讨论了基于GPT-3论文中的基准测试，对GPT-3的能力进行了探讨。

#语言模型 #gpt-3 #自然语言处理 +3

大模型基础理论学习笔记——大模型数据

本文主要介绍了支撑大模型的数据集构建及处理方面的内容，主要包括已有的庞大的网络数据和私有数据、有效且有目的的进行数据的过滤和策划、以及策划非网络的高质量数据集的必要性。同时，简要讨论了关于数据的全生命周期管理，包括数据集文档的构建和维护，以及数据治理、数据尊严等数据生态等方面。这些内容可为面向大模型的训练数据集构建的研究和实现提供基础知识支撑。

#深度学习 #语言模型 #gpt-3 +1

大模型基础理论学习笔记——大模型基础

本文对语言大模型，特别是自回归语言大模型的基础进行了简介，以支撑后续对大模型技术的深入研究与探讨。

#自然语言处理 #nlp #语言模型

共 23 条

请选择