logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI多模态实战教程:面壁智能MiniCPM-V多模态大模型问答交互、llama.cpp模型量化和推理

MiniCPM-V 2.0,这是MiniCPM系列的多模态版本。MiniCPM-V 2.0显示出强⼤的OCR和多模态理解能⼒,在开源模型中的OCRBench上表现出⾊,甚⾄在场景⽂本理解上可以与Gemini Pro相媲美。MiniCPM-V 系列是专为视觉-语⾔理解设计的多模态⼤型语⾔模型(MLLMs),提供⾼质量的⽂本输出,已发布4个版本。# 下载模型,以int4量化的MiniCPM-Llama

文章图片
#人工智能#交互
AI多模态教程:从0到1搭建VisualGLM图文大模型案例

中英文多模态大模型VisualGLM-6B微调部署全流程

文章图片
#人工智能#AIGC
AI多模态教程:从0到1搭建VisualGLM图文大模型案例

中英文多模态大模型VisualGLM-6B微调部署全流程

文章图片
#人工智能#AIGC
AI多模态教程:从0到1搭建VisualGLM图文大模型案例

中英文多模态大模型VisualGLM-6B微调部署全流程

文章图片
#人工智能#AIGC
AI多模态模型架构之模态编码器:图像编码、音频编码、视频编码

模态编码器(Modality Encoder, ME):负责将不同模态的输入编码成特征。常见的编码器包括图像的NFNet-F6、ViT、CLIP ViT等,音频的Whisper、CLAP等,视频编码器等。输入投影器(Input Projector):负责将其他模态的特征投影到文本特征空间,并与文本特征一起输入给语言模型。常用的投影器包括线性投影器、MLP、交叉注意力等。语言模型骨架(LLM Bac

文章图片
#人工智能#音视频#计算机视觉
AI多模态教程:从0到1搭建VisualGLM图文大模型案例

中英文多模态大模型VisualGLM-6B微调部署全流程

文章图片
#人工智能#AIGC
AI多模态教程:从0到1搭建VisualGLM图文大模型案例

中英文多模态大模型VisualGLM-6B微调部署全流程

文章图片
#人工智能#AIGC
DeepSeek专题:DeepSeek-V3核心知识点速览

自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练,用于解决大语言模型的高效推理和训练问题。多头潜在注意力(MLAMLA架构通过低秩联合压缩注意力键和值来减少推理过程中的KV缓存,从而提高推理效率。DeepSeekMoE架构使用细粒度的专家并行和隔离一些专家作为共享专家,以提高训练效率。无辅助损失的负载均衡为了最小化辅助损失对模型性能的影响,提出了一种无辅

文章图片
#人工智能#AIGC#机器学习
AI多模态教程:从0到1搭建VisualGLM图文大模型案例

中英文多模态大模型VisualGLM-6B微调部署全流程

文章图片
#人工智能#AIGC
AI多模态教程:从0到1搭建VisualGLM图文大模型案例

中英文多模态大模型VisualGLM-6B微调部署全流程

文章图片
#人工智能#AIGC
    共 12 条
  • 1
  • 2
  • 请选择