logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LoRA(Low-Rank Adaptation)微调 超全参数详解+标准化完整步骤指南

本文详细介绍了大模型微调中的LoRA(低秩适配)方法,强调其参数高效、显存占用低、训练速度快等核心优势。重点解析了LoRA的关键超参数(如低秩维度r、缩放系数alpha、目标适配层等)及其调参技巧,并提供了标准化微调流程,包括环境搭建、模型加载、训练配置等实操步骤。适用于LLaMA2、Qwen等主流大模型,帮助用户高效完成模型适配,单卡即可实现7B/13B模型的微调。完整教程可通过指定链接获取持续

#机器学习#深度学习
01大模型微调概述

本文系统介绍了大模型微调技术及其应用。首先阐述了通用大模型的概念与分类,包括语言、视觉和多模态模型。重点分析了微调的必要性:适应专业领域、提高数据安全性、降低计算成本等。详细比较了微调与RAG等技术的特点,并通过医疗、法律等行业案例说明微调的实际价值。文章深入讲解了全量微调、参数高效微调(PEFT)等多种方法,包括LoRA、Adapter等具体技术。最后介绍了DeepSpeed、LLaMAFact

文章图片
deepseek系列教程(清华北大版)

北京大学和清华大学分别推出DeepSeek系列教程文档,涵盖技术原理、部署方案、应用场景及安全防护等内容。北京大学教程重点介绍DeepSeek模型的MoE架构、GRPO算法等技术优势,以及私有化部署方案;清华大学教程则聚焦大模型安全框架、AI幻觉应对及家庭教育应用。两套教程均提供夸克网盘下载地址,包含5份核心文档,从不同维度解析这一国产开源强推理模型的特点与使用方法,适用于开发者、企业用户及普通学

文章图片
DEEPSEEK灵犀office太高效了,嵌入、满血、几万行数据分析不卡、太赞了!用起来!

这个工具中,无论是对话分析数据,还是查找一些VBA代码,或者函数公式,速度和准确性都非常感人,例如下图就是一份2M找有的文件,3W多行的基本对话产生的数据分析.问题是:如果加班不满半个小时不算加班,如果加班时间超过半个小时,不到一个小时算半个小时,如果加班1个小时不到1个半小时,算1个小时,这个怎么做?如果加班不满半个小时不算加班,如果加班时间超过半个小时,不到一个小时算半个小时,如果加班1个小时

文章图片
#数据分析#java#数据挖掘
ollama linux环境部署教程

虽然 AMD 已将 “amdgpu” 驱动程序贡献到官方 Linux 内核源代码的上游,但该版本较旧,可能无法支持所有 ROCm 功能。为了让您的 Radeon GPU 获得最佳支持,我们建议您从 “Linux® 版 AMD Radeon™ 及 Radeon PRO™ 显卡驱动程序” 安装最新驱动程序。在安装脚本中使用 `OLLAMA_VERSION` 环境变量来安装特定版本的Ollama,包括预

文章图片
#大数据#机器学习#深度学习 +1
DeepSeek模型的核心模板规范及使用注意事项

格式,需严格使用预设的标识符分隔不同对话回合。DeepSeek模型的对话模板通常遵循。需根据实际文件调整数据格式。需根据具体模型文档调整。

#python#人工智能#算法 +1
ollama linux环境部署教程

虽然 AMD 已将 “amdgpu” 驱动程序贡献到官方 Linux 内核源代码的上游,但该版本较旧,可能无法支持所有 ROCm 功能。为了让您的 Radeon GPU 获得最佳支持,我们建议您从 “Linux® 版 AMD Radeon™ 及 Radeon PRO™ 显卡驱动程序” 安装最新驱动程序。在安装脚本中使用 `OLLAMA_VERSION` 环境变量来安装特定版本的Ollama,包括预

文章图片
#大数据#机器学习#深度学习 +1
【本地部署教程】手把手教你搭建DeepSeek智能模型本地开发环境

随着AI应用的普及,越来越多的开发者需要在本地环境部署智能模型。本文将详细介绍如何在本地机器上部署DeepSeek模型,并提供完整的配置指南和优化建议。通过本文的指导,您已经成功在本地部署了DeepSeek模型。建议定期关注官方GitHub仓库获取最新更新,也欢迎在评论区分享您的部署经验!DeepSeek官方部署文档GitHub示例项目。

文章图片
#人工智能#数据挖掘#深度学习 +1
DeepSeek 本地部署与API调用全流程指南

通过以上流程,可在10分钟内完成本地部署并实现API调用,满足私有化场景的智能化需求‌12。库,支持文本补全、对话生成等任务‌23。

文章图片
阿里菜鸟 java后端开发最新面试题

本文摘要: Java核心知识点摘要:1)面向对象三大特性:封装、继承、多态;2)重载与重写区别;3)ArrayList(动态数组)与HashSet(哈希表)底层结构;4)Spring Bean生命周期四阶段;5)联合索引命中规则与索引下推;6)进程/线程/协程区别;7)Linux六种进程通信方式;8)设计模式六大原则;9)Redis五种基础数据类型及四种扩展类型应用场景;10)SQL与NoSQL特

#java#开发语言#面试 +1
    共 27 条
  • 1
  • 2
  • 3
  • 请选择