logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

llamafactory/model/loader.py [源码解析]

它处理了可能的错误,添加了新的特殊token(如果有的话),并可能对tokenizer进行了一些自定义修改。总的来说,这段代码主要处理了多模态模型的加载过程,特别是处理视觉输入的情况。代码中提到的BUAADreamer确实与您提供的URL内容相符,显示了代码与特定模型仓库的关联。如果加载处理器失败,代码抛出一个ValueError,提示用户这个多模态LLM不被支持,并建议下载LLaVA-1.5或Y

文章图片
#python#开发语言
针对 Yi 6B 和 34B 进行微调代码 + lora微调 llama factory

对于 Yi-34B 模型,由于使用零卸载技术会占用大量 CPU 内存,请注意限制 34B 微调训练中的 GPU 数量。用于微调 34B 模型的典型硬件设置是一个具有 8GPUS 的节点(通过 CUDA_VISIBLE_DEVICES=0,1,2,3 限制运行时为 4 个),每个 GPU 内存大于 80GB,总 CPU 内存大于 900GB。对于Yi-6B基础模型,设置training_debug_

#transformer#人工智能
详细解释VIT,和vip中的transformer有哪些不同

Vision Transformer通过将图像视为补丁序列并利用自注意力机制,成功地将Transformer架构应用于计算机视觉任务。这种方法与传统的卷积神经网络相比,能够更好地捕捉全局特征,尤其是在大规模数据集上表现出色。然而,ViT对数据量的需求较高,在小数据集上的表现可能不如专门设计用于捕捉局部特征的CNN。

文章图片
#transformer#深度学习#人工智能
阿里 Qwen-2.5 Coder 32B 测评:成绩亮眼,实战为何让人失望?

Qwen-2.5 Coder系列是阿里巴巴推出的最新代码生成模型,具体信息来自于阿里巴巴发布的Qwen2.5-Coder Technical Report。根据该技术报告,Qwen-2.5 Coder在前一代CodeQwen1.5的基础上进行了大幅升级,推出了从0.5B到32B不同参数量的六个模型。作为一个代码专用模型,Qwen-2.5 Coder基于Qwen2.5架构构建,预训练数据规模超过5.

文章图片
#人工智能
NVIDIA NeMo 框架 github项目

如果您使用 LLM 和 MM 域,则需要三个额外的依赖项:NVIDIA Apex、NVIDIA Transformer Engine 和 NVIDIA Megatron Core。要在配备 Apple M 系列 GPU 的 Mac 电脑上安装 NeMo,您需要创建一个新的 Conda 环境,安装 PyTorch 2.0 或更高版本,然后安装 nemo_toolkit。如果您只想要工具包而不需要额外

文章图片
#github
使用Qwen千问大模型和LangChain打造RAG应用

在这部分代码中,指定了用于生成嵌入向量的预训练模型路径,即sentence-transformers/all-mpnet-base-v2。同时,还设置了计算设备,优先选择GPU以加速计算过程,如果GPU不可用,则回退到CPU。

文章图片
#人工智能#机器学习#深度学习
transformers/models/qwen2_moe/modeling_qwen2_moe.py[Qwen2-MOE源码解析]

我会用中文逐行解释这段代码,并将其与Qwen2论文,特别是MoE(混合专家)部分联系起来:python复制这定义了一个新的类它继承自PyTorch的nn.Module。这个类代表了Qwen2 MoE模型中专家的MLP(多层感知器)部分。python复制初始化函数接收一个config对象和一个可选的。它基于配置设置基本属性。参数允许灵活设置中间层的大小,这对论文中提到的"专家粒度"概念很重要。pyt

文章图片
#深度学习#计算机视觉#人工智能
小白视角:vllm 迁移到 SGLang 的体验与收获

这是(我一个小白能理解的)最重要的两行 log,第一行是 prefill 时的信息,我们主要关注 cache hit rate,可以见到我们的 cache hit rate 是相对高的,这符合预期。当然,请注意你的请求本身能否维持稳定。(其实这事情我自己也觉得有些诧异,随着我的 prompt 越发复杂,cache-hit rate 从 99.91% 跌倒了 84.74%,导致我的 token-us

文章图片
#人工智能
详说vllm的安装

【代码】详说vllm的安装。

文章图片
#python#开发语言
小白视角:vllm 迁移到 SGLang 的体验与收获

这是(我一个小白能理解的)最重要的两行 log,第一行是 prefill 时的信息,我们主要关注 cache hit rate,可以见到我们的 cache hit rate 是相对高的,这符合预期。当然,请注意你的请求本身能否维持稳定。(其实这事情我自己也觉得有些诧异,随着我的 prompt 越发复杂,cache-hit rate 从 99.91% 跌倒了 84.74%,导致我的 token-us

文章图片
#人工智能
    共 107 条
  • 1
  • 2
  • 3
  • 11
  • 请选择