logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

celebA数据集(StarGAN)分享

他喵的 21 积分,真的贵啊:直接分享给大家:链接:https://pan.baidu.com/s/1GBzQlRDyw3wxgxaDyMsNWA提取码: wtnaStarGAN 官方Pytorch实现中下载就是介个数据集其官方代码中下载数据集的地址是(需要墙):https://www.dropbox.com/s/d1kjpkqklf0uw77/celeba.zip?dl=0有的老铁想要完整版 c

PP飞桨:《深度学习导论与应用实践》更正

P134页 | 5.7.4 Inception | 1.Inception v1 | 第二段 | GoogLenet -> GoogLeNet

#深度学习#paddlepaddle
访问vllm server 没有返回值

这一点倒是没事,但是我的 client 端始终访问不到 localhost 的 8040 端口。我一开始可以把代码中的 localhost 改成我的绝对地址(返回的) 是这一用的,但我不知道是为啥,hhh。今天想起来我好像设置了代理,呵呵呵。但是我这个直接啥都没返回?把这俩取消之后,在执行。:把代理关了再试一次(

MCP vs Function Call区别

Function Call 是“模型自己会用的工具”,MCP 是“让模型安全、标准地连接万物的协议”。两者不是替代关系,而是互补:Function Call 快速直接,MCP 通用强大。

LLM训练过程中的 CAUSAL_LM 是什么?

备注:“causal”在这里指因果mask/先后约束,不是因果推断(Causal Inference)里的“因果关系”。CAUSAL_LM 指“因果语言模型”,更常见的说法是“自回归语言模型”。

nsight system分析LLM注意事项

CUDA 11 引入了 CUDA Graphs(图执行模型),这个参数控制如何追踪 CUDA Graph 的行为。这样可以看到每个 graph node 的详细执行、调度信息,对调优 CUDA Graph 性能有帮助。node 表示以节点粒度跟踪 CUDA Graph,而不是更粗的 graph 粒度。有时候参数写错了,但是为同一个名字,则开启这个,覆盖原来的文件。通过打桩,记录哪部分跑了什么。

Tensor Parallel 与 Expert Parallel 区别与联系

只做TP:一个大矩阵A分片,每卡存一部分,所有卡并行计算同一个层的不同块。只做EP:不同专家分在不同卡组,每次只激活部分专家(部分卡),每卡负责自己的整个专家。同时做TP+EP:每个专家都很大也被切分,每专家内部再做TP,卡既属于某专家又负责专家内部的一部分参数。这样就可以把超大模型、海量专家的训练与推理分布在很多卡上,既保证了大容量也能高效利用硬件!

vllm server返回404的一种可能得解决方案

这里是我的测试脚本,你看看你的请求头里的模型名字/路径改对了吗。启动server的时候写的是相对路径,这里写成绝对路径了。我的 server 启动指令。就很奇怪,不都是直接访问。哦,原来是模型路径填错了。

Announcing vLLM-Omni: Easy, Fast, and Cheap Omni-Modality Model Serving

如今最先进的模型能够跨文本、图像、音频和视频进行推理,并使用多样化的架构生成异构输出。我们正在积极开发对更多架构的支持,并邀请社区帮助塑造 vLLM-Omni 的未来。我们的路线图侧重于扩展模型支持,并将高效推理的界限推得更远,同时构建合适的框架来赋能未来对全模态模型的研究。抽象,我们提供了一种简单直接的方式来支持各种全模态模型,包括 Qwen-Omni、Qwen-Image 和其他最先进的模型。

    共 62 条
  • 1
  • 2
  • 3
  • 7
  • 请选择