logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

一行命令解决所有huggingface问题

缘分就像一道墙,资源在里面,我们在外面,试着改代码手动下载,也是一堆问题,本来一个唾手可得的东西,非要人为加上重重阻碍,然一道命令,解决所有问题丝滑程度不亚于直接face to face,伟大程度媲美清华源很多本应统一的东西,因为外网拿不到,所以国内搞了很多丑陋的镜像:阿里还行,但modelscope(魔搭)很多非主流模型weight的sha256和huggingface的都不一样,华为昇腾的mo

#人工智能#昇腾#算法
昇腾多模态大模型推理能力 学习,看这一篇就够了

目前昇腾的多模态大模型推理能力主要集成在MindIE推理引擎的LLM和SD组件MindIE最新版本支持的多模态模型LLaVa、Qwen-VL、internVL、internLM-XComposer2、MiniCPM-V2、MiniCPM-LLaMa3-V2.5支持多模态理解VLM模型对接服务化调度、单图url/base64。

文章图片
#学习
vllm の Dockerfile学习

【代码】vllm の Dockerfile学习。

文章图片
#学习
4*910B1のDeepSeek-R1部署

部署DeepSeek-R1模型用BF16权重进行推理至少需要4台Atlas 800I A2(864G)服务器,用W8A8量化权重进行推理则至少需要2台Atlas 800I A2 (864G)

#kubernetes#昇腾
小白up第一次做视频播放超过5万了!!!

作为一个白的不能再白的小白,之前在b站上传了很多视频,播放量都是个位数,这次居然直接到五万了,体验了一把评论回不过来,点赞源源不断的感觉,哈哈哈!新FMVP皮肤--镜(暖阳)感觉离我的十万粉小奖牌要不远了,啊啊啊,fighting!!!...

昇腾 paged_attention 算子

【代码】昇腾 paged_attention 算子。

文章图片
#java#人工智能#算法
大模型的webui

【代码】大模型的webui。

#人工智能#python#昇腾
昇腾のPrefix Cache

Prefix Cache 即前缀缓存,是一种用于优化大语言模型(LLM)推理性能的技术,主要应用于多轮对话、系统提示等具有大量共同前缀的场景。LLM 推理计算主要包括 Prefill 阶段(Prompt 计算)和 Decode 阶段。Prefill 阶段为 Decode 阶段准备 KV Cache,通常这些 KV Cache 只为单条推理请求服务,请求结束后会被清除。但在一些场景下,多次请求的 P

#开发语言#人工智能
昇腾多模态大模型推理能力 学习,看这一篇就够了

目前昇腾的多模态大模型推理能力主要集成在MindIE推理引擎的LLM和SD组件MindIE最新版本支持的多模态模型LLaVa、Qwen-VL、internVL、internLM-XComposer2、MiniCPM-V2、MiniCPM-LLaMa3-V2.5支持多模态理解VLM模型对接服务化调度、单图url/base64。

文章图片
#学习
    共 37 条
  • 1
  • 2
  • 3
  • 4
  • 请选择