
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
【综述+3D】基于NeRF的三维视觉2023年度进展报告(截止2023.06.10)
NeRF的核心优化手段: 端到端可微渲染(紧致-高效的三维视觉信息表达)从更本质的角度建立了二维图像与三维世界的联系

【环境】linux下普通权限用户conda安装pytorch相关包报错——conda.gateways.disk.delete:unlink_or_rename_to_trash
LInux切换到`root用户`再进行conda安装,可能之前conda某些包使用在root 用户下进行安装
【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE)
中文英文模型,GPT-4性能是当着无愧的王者,但无法使用。`中文评测平台`榜单比较混乱,看个人使用习惯。

【论文+中文文生图】Kolors:快手可图绘画模型实测(24.07.06开源)
Kolors=(SDXL Unet + chatGLM3 + CogVLM + 数十亿图像预训练+数百万高质量图片)Kolors,这是一种基于`SDXL`的 U-Net 架构的潜在扩散模型(latent diffusion model),通过中英文模型`chatGLM3` (General Language Model, GLM)和由**多模态** **`CogVLM`** 生成的细粒度文本标题。

【多模态MLLMs+图像编辑】MGIE:苹果开源基于指令和大语言模型的图片编辑神器(24.02.03开源)
基于指令(Instruction-based)的图像编辑通过自然命令提高了图像操作的可控性和灵活性,而无需详细描述或区域掩模。然而,人类的指令有时过于简短,目前的方法无法捕捉和遵循。多模态大语言模型MLLMs))在跨模态理解和视觉感知响应生成方面显示出很好的能力。我们研究了mllm如何促进编辑指令和呈现mllm引导的图像编辑(MGIE)。MGIE学习推导表达指令并提供明确的指导。编辑模型共同捕获这

【ollama安装】国内 linux 环境安装ollama
使用命令行前,请确保已经通过pip install modelscope 安装ModelScope。

1张图片+3090显卡微调Qwen-VL视觉语言大模型(仅做演示、效果还需加大数据量)
一张图微调qwen-vl

【大模型+编程助手】国内编程助手安装与使用(CodeGeeX,Baidu Comate)
百度、清华的代码助手安装与使用










