logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

探索大语言模型(LLM):Lora vs. QLora:参数高效微调的双生花,你该选谁?

在大型语言模型(LLM)的微调江湖中,参数高效微调(PEFT)技术正以“四两拨千斤”的姿态颠覆传统训练范式。其中,Lora(Low-Rank Adaptation)与QLora(Quantized Low-Rank Adaptation)这对“双生花”凭借独特优势,成为开发者手中的利器。本文将深入剖析二者的技术内核、资源消耗与适用场景,助你在资源与精度间找到完美平衡点。

#语言模型#人工智能#深度学习
探索大语言模型(LLM):循环神经网络的深度解析与实战(RNN、LSTM 与 GRU)

循环神经网络(RNN)为处理序列数据提供了基础框架,但其在长序列处理上的局限性促使了长短期记忆网络(LSTM)和门控循环单元(GRU)的诞生。LSTM 通过精细的门控机制和细胞状态,有效地解决了梯度问题,能够处理复杂的长序列数据。GRU 则在保持一定性能的同时,通过简化结构提高了训练效率。在实际应用中,我们需要根据具体任务的特点和需求,选择合适的模型。希望通过本文的介绍,你对 RNN、LSTM 和

文章图片
#rnn#语言模型#lstm
探索大语言模型(LLM):参数量背后的“黄金公式”与Scaling Law的启示

过去十年,人工智能领域最震撼的变革之一,是模型参数量从百万级飙升至万亿级。从GPT-3的1750亿参数到GPT-4的神秘规模,再到谷歌Gemini的“多模态巨兽”,参数量仿佛成了AI能力的代名词。但参数真的是越多越好吗?这场“军备竞赛”背后,是否隐藏着更底层的规律?今天,我们拆解参数量的决定性因素,并透过Scaling Law(尺度定律)的视角,窥探AI发展的终极密码。

文章图片
#语言模型#人工智能#自然语言处理
探索大语言模型(LLM):定义、发展、构建与应用

在自然语言处理(NLP)领域,大规模语言模型(Large Language Models, LLM)正引领着一场技术革命。这些模型以其庞大的参数规模、强大的语言理解能力和广泛的应用场景,成为人工智能研究与应用中的一颗璀璨明星。本文将深入探讨LLM的基本概念、发展历程、构建流程以及其在多个领域的应用。

文章图片
#语言模型#人工智能#自然语言处理
探索大语言模型(LLM):零基础上手硅基流动平台(附带2000万token邀请码)

SiliconFlow(硅基流动)是专注于生成式AI的计算基础设施平台,提供大模型推理引擎(SiliconLLM)、文生图/视频加速库(OneDiff)及模型云服务平台(SiliconCloud),旨在降低AI模型的部署和推理成本。

文章图片
#深度学习
探索大语言模型(LLM):循环神经网络的深度解析与实战(RNN、LSTM 与 GRU)

循环神经网络(RNN)为处理序列数据提供了基础框架,但其在长序列处理上的局限性促使了长短期记忆网络(LSTM)和门控循环单元(GRU)的诞生。LSTM 通过精细的门控机制和细胞状态,有效地解决了梯度问题,能够处理复杂的长序列数据。GRU 则在保持一定性能的同时,通过简化结构提高了训练效率。在实际应用中,我们需要根据具体任务的特点和需求,选择合适的模型。希望通过本文的介绍,你对 RNN、LSTM 和

文章图片
#rnn#语言模型#lstm
pytorch深度学习基础(四)——损失函数

均方误差(MSE),L2范式与闵可夫斯基距离,交叉熵误差(cross_entropy_error),极大似然损失函数(LR)的函数公式,应用场景以及代码的实现

#python#深度学习
睿智的keras深度学习(五)——自动化调整超参数

解放双手,拒绝调参!!!自动搜索超参数!!!!!

#keras#深度学习#自动化
    共 55 条
  • 1
  • 2
  • 3
  • 6
  • 请选择