冀辉个人主页

@jihui8848

冀辉

2022-09-29 18:54:08 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

如何使用Kimi进行图片内容识别

最近Kimi也发布了他们的视觉大模型，简单测试了一下，效果还不错，对图片中的物品识别的比较准确和细致。Kimi的视觉分析，和之前的文本调用非常接近。Kimi采用了将图片进行Base64编码为文本的方式，进行参数传递，可以直接使用OpenAI客户端进行调用。

#计算机视觉

半小时在本地部署DeepSeek的Janus Pro，进行图片分析和文生图

测试印象：整体模型体积较小，个人可以部署并使用。图像识别效果不错，不但可以识别一般的图片，也可以识别一些图纸类的内容。显存占用不高，24G显存即可以运行图片识别和图像生成。部署相对简单，如果不考虑模型下载时间，半小时就可以进行简单测试。图片识别时，如果图片是格式复杂的文本类（如试卷），在OCR时，会出现较严重的问题。生成图片时，必须用英文。生成图片时，当提示词过于简单时，会出现物品不完整的现象。总

#计算机视觉 #人工智能

如何使用Kimi进行图片内容识别

#计算机视觉

半小时在本地部署DeepSeek的Janus Pro，进行图片分析和文生图

#计算机视觉 #人工智能

半小时在本地部署DeepSeek的Janus Pro，进行图片分析和文生图

#计算机视觉 #人工智能

到底了