logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

手把手教你如何全参微调QWEN2.5

前言本次实战采用QWEN2.5的0.5b的小体量模型在弱智吧数据集上进行微调。总所周知,弱智吧里面有很多问题十分的无厘头。这种无厘头的发问虽然在人类的角度来看其实大部分都是对中文语义的强行模糊,但对于模型来说确实锻炼模型逻辑能力的高质量预料。,如何快速获取廉价算力,如何在模型上进行全参微调环境配置本次实战我们的硬件配置采用4090训练。由于模型体积很小,所以我们直接使用全量微调。训练框架采用。

文章图片
#人工智能
一般人我劝你不要学大模型!自学大模型的,能骂醒一个算一个!

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模

#人工智能#学习
2025年最全大模型学习路线:从零基础到精通,理论与实践结合的最佳路径!

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模

#人工智能#AI
企业如何有效落地大模型?领先公司提供解决方案,非常详细收藏我这一篇就够了!

12 月 12 日,由中国人工智能产业发展联盟(AIIA)指导、北京中关村科金技术有限公司主办的【2024 大模型技术与应用创新论坛】在北京成功举办。论坛现场,中关村科金总裁喻友平正式发布,推出重磅升级的,以及一系列大模型应用。其中,得助大模型平台 2.0 具备算力统一调度能力、一站式模型训推、应用快速构建三大核心能力,并基于企业级最佳实践沉淀上百个全场景套件,能够帮助各类企业快速构建和部署自己的

文章图片
#人工智能#学习
Gemini3.1 Pro深度体验:推理能力翻倍!小白程序员收藏必看,免费额度够用吗?

Gemini 3.1 Pro模型升级引发广泛关注,其核心改进包括:推理能力显著提升,可处理复杂任务并减少幻觉现象;上下文窗口扩展至百万Token,支持长文档分析;新增多模态输出功能,可直接生成SVG动画等可视化内容。模型还引入分层思考模式,用户可根据任务难度选择不同算力等级。文章对比了不同用户群体的使用体验,指出开发者对该模型性价比满意度较高,而普通用户对免费额度限制存在意见。最后建议用户根据实际

文章图片
#人工智能#学习
AI产品经理面试攻略,600+大模型合集等你来

简而言之,AI产品具有智能化、自适应和学习能力,而普通产品则更依赖于预设的规则和操作。• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框

文章图片
#学习#人工智能#语言模型 +1
【淘天大模型一面】SFT算法中loss的计算方式是什么?

文章详细介绍了大模型SFT(监督微调)的损失函数计算方法及其变体。首先阐述了SFT样本需要padding处理且prompt部分不参与loss计算的基本原则。随后探讨了三种实际应用变体:prompt loss weight的争议与设置、多轮对话的loss计算优化技巧,以及sequence packing技术解决样本长短不一导致的算力浪费问题。内容实用性强,适合大模型实践者参考学习。

文章图片
#人工智能#机器学习#算法 +3
国产AI大模型:DeepSeek产业链全解析

DeepSeek由国内量化私募领域的巨头幻方量化创立,总部位于杭州。幻方量化拥有丰富的技术积累和强大的算力资源,作为大厂之外唯一一家储备万张A100芯片的公司,为DeepSeek的技术研发奠定了坚实的基础。DeepSeek专注于开发先进的大语言模型(LLM)及相关技术,依托自研的训练框架、自建的智算集群以及万卡算力等资源优势,为模型研发提供硬件支撑;通过大幅度缩减以往大模型所需要的庞大算力,直接把

文章图片
#人工智能#AI#DeepSeek
程序员转行大模型,这些高薪岗位等你来抢!

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模

文章图片
#人工智能#AI
大语言模型全攻略:从基础知识到项目实战【大模型学习技术路线】

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模

文章图片
#语言模型#学习#人工智能
    共 2925 条
  • 1
  • 2
  • 3
  • 293
  • 请选择