logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型学习路径,(非常详细)从零基础入门到精通,收藏这篇就够了

在掌握机器学习之前,理解支撑这些算法的基本数学概念非常重要。:这是理解许多算法(特别是深度学习算法)的关键。主要概念包括向量、矩阵、行列式、特征值和特征向量、向量空间以及线性变换。:许多机器学习算法涉及到连续函数的优化,这需要理解导数、积分、极限和级数。多变量微积分以及梯度的概念也很重要。:这些知识对于理解模型如何从数据中学习并进行预测至关重要。主要概念包括概率理论、随机变量、概率分布、期望、方差

文章图片
#人工智能#神经网络
如何估算大模型训练所需算力?(非常详细)从零基础入门到精通,收藏这篇就够了

ChatGPT横空出世引发了“百模大战”,算力需求成为焦点, GPU卡一时洛阳纸贵。训练一个大模型,究竟需要多少张GPU卡呢?2023年初写了篇文章《》大致总结了一下,但没有提到推导过程,今天有空展开聊聊。据估计,OpenAI训练GPT-4模型,很有可能应用了10000到20000张英伟达A100。按照马斯克的说法,GPT-5的训练可能需要3万到5万张H100,可见随着大模型的迭代发展,训练所需算

文章图片
#人工智能#神经网络
万字长文详解如何构建自己的大模型(非常详细)零基础入门到精通,收藏这一篇就够了_大模型搭建

如今大模型百花齐放,关于大模型的文章也非常多,但是介绍如何从0开始构建自己的大模型的介绍比较少,本文系统性地介绍了如何选择合适的基座模型,以及如何使用自己的数据微调大模型。

文章图片
#人工智能#机器学习#深度学习 +1
SFT阶段,LLM训练的label是什么?

也就是说,模型在训练时,输入是完整的对话(问题+回答),但在计算损失时,只考虑回答部分的预测是否正确,问题部分作为上下文不需要计算损失。例如,在InstructGPT的SFT阶段,他们使用人类标注的对话数据,其中输入是用户的指令,输出是助理的回答,作为监督信号来微调模型。总结一下,可能的思路是:在SFT阶段,模型的输入是任务相关的输入文本(如问题、指令),标签是对应的目标输出文本(如回答、执行结果

文章图片
#人工智能#自然语言处理#学习 +1
最新AI大模型数据集解决方案:分享两种AI高质量代码数据集生产方案

随着AI大模型技术的快速发展,自动化的数据抓取工具逐渐成为了主流,尤其是在需要快速、高效、可定制化的数据抓取时,Web Scraper API工具成为了许多开发者和数据科学家的首选工具。与第一种方式不同,Web Scraper API工具提供了图形化界面以及灵活的配置选项,能够帮助用户更快、更高效地抓取数据。

文章图片
#人工智能#语言模型#自然语言处理
GitHub上4大开源LLM微调框架对比

原创[#LlamaFactory](javascript:😉 以其极致的易用性脱颖而出,为开发者提供了一个强大的零代码网页界面(Web UI),让模型微调变得像"点几下鼠标"一样简单。[#Unsloth](javascript:😉 的核心价值在于其惊人的性能优化。它能将大模型的微调速度提升 2 倍,同时将[#显存](javascript:😉(VRAM)占用降低 70% 以上,让中端 [#GP

文章图片
#github#开源#人工智能 +1
100个AI岗位,00后就业首选AI赛道,应届大学生找工作收藏!零基础入门到精通,看这篇就够了!赶紧收藏!

自从2022年11月30日Gatchap发布,AI如同一股强劲的浪潮,带着危机席卷了各行各业,不仅重塑了商业模式和工作流程,更是颠覆了传统就业思维,同时带来了前所未有的就业新机遇。麦肯锡全球研究院发布的《工作的新未来》报告显示:“在2030年至2060年间,将会有50%的现有职业被AI取代。”算一下就5年时间了,取中是2045年,也只是20年后。AI市场规模持续扩大是必然趋势,这直接带动了AI人才

文章图片
#人工智能#面试#深度学习 +1
什么是大模型微调?如何对大模型进行微调?大模型入门到精通,收藏这篇就够了

从GPT-3到ChatGPT,再到GPT-4和GitHub Copilot,微调在这些过程中发挥了重要作用。什么是微调?微调能解决哪些问题?LoRA又是什么?如何进行微调?本文将解答上述问题,并通过代码示例展示如何使用LoRA进行微调。微调的技术门槛不高,对于规模不超过100亿参数的模型,所需的硬件成本也不高(100亿参数的模型并非玩具,许多实际应用中会使用这种规模的模型)。即使是非专业的算法人员

文章图片
#人工智能#神经网络
小白入门大模型:LangChain

模型在高层次上有两种不同类型的模型:语言模型(language models)和文本嵌入模型(text embedding models)。文本嵌入模型将文本转换为数字数组,然后我们可以将文本视为向量空间。在上面这个图像中,我们可以看到在一个二维空间中,“king”是“man”,“queen”是“woman”,它们代表不同的事物,但我们可以看到一种相关性模式。这使得语义搜索成为可能,我们可以在向量

文章图片
#人工智能#性能优化
牛炸天!开源平台 Oumi 让大模型训练、微调、部署一气呵成,谁用谁赚!

帮忙点击,给个关注呗!在人工智能飞速发展的当下,大模型成为了众多研究与应用的核心。然而,从模型的训练、微调,到评估、部署,每一个环节都充满挑战。今天,我要给大家介绍的Oumi项目,犹如一位贴心的“大模型管家”,致力于简化大模型的整个生命周期,让我们一起来了解它。

文章图片
#开源#人工智能#自然语言处理
    共 510 条
  • 1
  • 2
  • 3
  • 51
  • 请选择