logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【Datawhale学习笔记】使用AMD GPU15分钟部署&运行Gemma4大模型

等效 batch size 为 16.使用 adamw_torch,避免 AMD ROCm 下 bitsandbytes 优化器兼容问题bf16=BF16,fp16=FP16,seed=SEED,

【Datawhale学习笔记】使用AMD GPU15分钟部署&运行Gemma4大模型

等效 batch size 为 16.使用 adamw_torch,避免 AMD ROCm 下 bitsandbytes 优化器兼容问题bf16=BF16,fp16=FP16,seed=SEED,

【Datawhale学习笔记】使用AMD GPU15分钟部署&运行Gemma4大模型

拉敲了一堆东西,那么我们到底这一节做了什么事情了,总结为以下四步:第一步:先检查显卡能不能用。第二步:把模型下载到本地。第三步:用 vLLM 把模型启动成一个服务。第四步:另开一个终端连上去对话。

【Datawhale学习笔记】使用AMD GPU15分钟部署&运行Gemma4大模型

拉敲了一堆东西,那么我们到底这一节做了什么事情了,总结为以下四步:第一步:先检查显卡能不能用。第二步:把模型下载到本地。第三步:用 vLLM 把模型启动成一个服务。第四步:另开一个终端连上去对话。

【InternLM 实战营笔记】浦语大模型趣味 Demo

大模型通常指的是机器学习或人工智能领域中参数数量巨大、拥有庞大计算能力和参数规模的模型。这些模型利用大量数据进行训练,并且拥有数十亿甚至数千亿个参数。大模型的出现和发展得益于增长的数据量、计算能力的提升以及算法优化等因素。这些模型在各种任务中展现出惊人的性能,比如自然语言处理、计算机视觉、语音识别等。这种模型通常采用深度神经网络结构,如 Transformer、BERT、GPT( Generati

文章图片
【Datawhale学习笔记】Word2Vec

为了学习到这个查询表,Word2Vec设计了一个巧妙的"伪任务"——根据上下文预测中心词(或反之),并在这个过程中,将词向量查询表作为模型参数进行训练和优化。不会使用它的输出,真正需要和保留的,只有作为其内部参数的那个 词向量查询表。神经网络结构本身只是获取词向量的一种方式,并非模型的最终目的。尽管Word2Vec是里程碑式的算法,但存在一个根本性的局限性——它产生的是静态词向量。由于One-Ho

#学习#word2vec
【Datawhale动手学深度学习笔记】多层感知机代码实践

激活函数(activation function)通过计算加权和并加上偏置来确定神经元是否应该被激活, 它们将输入信号转换为输出的可微运算。大多数激活函数都是非线性的。由于激活函数是深度学习的基础,下面简要介绍一些常见的激活函数。

文章图片
#深度学习#python#人工智能
【昇思25天学习打卡营打卡指南-第二十四天】基于 MindSpore 实现 BERT 对话情绪识别

自己输入推理数据,展示模型的泛化能力。predict("家人们咱就是说一整个无语住了 绝绝子叠buff")

文章图片
#学习
【昇思25天学习打卡营打卡指南-第二十一天】Diffusion扩散模型

Diffusion扩散模型本文基于Hugging Face:The Annotated Diffusion Model一文翻译迁移而来,同时参考了由浅入深了解Diffusion Model一文。关于扩散模型(Diffusion Models)有很多种理解,本文的介绍是基于denoising diffusion probabilistic model (DDPM),DDPM已经在(无)条件图像/音频

文章图片
#学习
【昇思25天学习打卡营打卡指南-第二十五天】基于MindSpore的GPT2文本摘要

本次实验使用的是nlpcc2017摘要数据,内容为新闻正文及其摘要,总计50000个样本。因GPT2无中文的tokenizer,我们使用BertTokenizer替代。数据处理,将向量数据变为中文数据。

文章图片
#学习#分类
    共 86 条
  • 1
  • 2
  • 3
  • 9
  • 请选择