Alex_StarSky 个人主页

@Alex_StarSky

Alex_StarSky

2023-10-09 15:56:04 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

GPT实战系列-Baichuan2等大模型的计算精度与量化

不做特别处理，深度学习默认参数精度为浮点32位精度（FP32）。大模型参数庞大，10-1000B级别，如果不注意优化，既耗费大量的显卡资源，也耗费大量的训练时间。有的地方32位精度没有太大必要，这就是浮点精度和量化的动力来源。大模型的训练和预测过程中，如何加快训练速度？如何降低显存占用？有哪些简单的方法？

大模型查询工具助手之股票免费查询接口

一个免费查询股票信息的API接口。股票研究的实践中需要查询股票市场接口，百度搜索大多链接都要收费或者注册。

DeepSeek｜prompt和completion有什么作用？

prompt 用于向模型明确指定要执行的任务。例如，在文本生成任务中，如果。

#DeepSeek

DeepSeek｜如何基于DeepSeek大模型进行微调？

在指定磁盘（如 E 盘）新建文件夹，命名为如 "article_trainer"。比如想让模型在医疗领域表现更好，就收集医疗相关的文本数据，像医学论文、病例、医疗问答等。如果是基于 DeepSeek 模型做通用文本生成的微调，也可以收集各种类型的优质文本，如新闻、小说、科普文章等。：去除数据中的噪声和错误，比如乱码、重复数据、不完整的数据等。同时，删除带特殊符号的内容，统一文章长度，如每篇 500

#DeepSeek

GPT实战系列-GPT训练的Pretraining，SFT，Reward Modeling，RLHF

什么预训练？什么是pretraining？什么是Base model，什么是SFT model？CPT和ChatGPT是一样的吗？以GPT为例，LLM训练流程分为4个阶段：预训练，监督微调训练，奖励评价训练，强化学习。分别生成预训练模型（Base model，基础模型），如GPT3，GPT4；监督精调模型SFT模型，RM奖励评价模型，和最后的生成模型，如ChatGPT。

GPT实战系列-如何用自己数据微调ChatGLM2模型训练

本文面向的读者对象是如何使用自己的数据集，微调训练ChatGLM2大语言模型。将阐述数据如何组织，样例数据的获取。训练脚本，代码如何根据自己情况进行调整，以及常见的问题解决方法和思路。

#ChatGPT

GPT实战系列-Baichuan2本地化部署实战方案

自从chatGPT掀起的AI大模型热潮以来，国内大模型研究的开源活动进展也如火如荼，模型需要群众的打磨。本实战专栏将评估一系列的开源模型，尤其关注国产大模型，重点在于可私有化、轻量化部署，比如推理所需的GPU资源控制在24G显存内。

#ChatGPT

DeepSeek｜如何让DeepSeek回答更像领域专家？

细化任务描述尽可能具体地阐述需求，避免模糊表述。比如，若想了解医学领域的知识，不要问 “什么是疾病”，而是具体到 “请详细解释阿尔茨海默病的发病机制、症状表现以及当前的治疗手段”。明确专业背景在 prompt 中点明涉及的专业领域和特定背景。例如，在金融领域，“从宏观经济学和投资学的角度，分析当前利率上升对房地产市场和股票市场的影响”。

#DeepSeek

GPT实战系列-智谱GLM-4的模型调用

本文介绍如何调用智谱GLM4的API，用Python语言调用GLM-4 模型实现大模型应用

DeepSeek｜如何让DeepSeek回答更像领域专家？

共 18 条

请选择