logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【AutoencoderKL】基于stable-diffusion-v1.4的vae对图像重构

基于stable-diffusion-v1.4的vae对图像重构。

文章图片
【 AI 编程】Claude Code / Codex / Gemini CLI 全方位辅助工具

CC-Switch是一款管理AI编程工具(Claude/Codex/Gemini等)的桌面应用,提供可视化界面统一管理配置、供应商切换和扩展功能。安装需下载MSI安装包,配置Node.js环境并安装对应CLI工具(npm全局安装)。使用时可选择供应商API密钥,通过命令行调用工具(如codex)进行AI编程交互,支持模型选择和文件生成操作。配套教程链接提供详细配置指南,适合开发者统一管理多AI工具

文章图片
#人工智能
【视觉语言模型+医学】23.06 LLaVA-Med(医学图片视觉助手): Training a Large Language-and-Vision Assistant for Biomedicine

23.06 LLaVA-Med 使用通用领域( general-domain)的 LLaVA 进行初始化.然后60W+6W的数据以课程学习方式(curriculum learning)持续训练(首先是**生物医学概念对齐**(biomedical concept alignment), 然后是全面的指令微调( instruction-tuning))。

文章图片
【综述+3D】基于NeRF的三维视觉2023年度进展报告(截止2023.06.10)

NeRF的核心优化手段: 端到端可微渲染(紧致-高效的三维视觉信息表达)从更本质的角度建立了二维图像与三维世界的联系

文章图片
#3d
【环境】linux下普通权限用户conda安装pytorch相关包报错——conda.gateways.disk.delete:unlink_or_rename_to_trash

LInux切换到`root用户`再进行conda安装,可能之前conda某些包使用在root 用户下进行安装

#pytorch#linux#conda
【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE)

中文英文模型,GPT-4性能是当着无愧的王者,但无法使用。`中文评测平台`榜单比较混乱,看个人使用习惯。

文章图片
【论文+中文文生图】Kolors:快手可图绘画模型实测(24.07.06开源)

Kolors=(SDXL Unet + chatGLM3 + CogVLM + 数十亿图像预训练+数百万高质量图片)Kolors,这是一种基于`SDXL`的 U-Net 架构的潜在扩散模型(latent diffusion model),通过中英文模型`chatGLM3` (General Language Model, GLM)和由**多模态** **`CogVLM`** 生成的细粒度文本标题。

文章图片
#人工智能
【多模态MLLMs+图像编辑】MGIE:苹果开源基于指令和大语言模型的图片编辑神器(24.02.03开源)

基于指令(Instruction-based)的图像编辑通过自然命令提高了图像操作的可控性和灵活性,而无需详细描述或区域掩模。然而,人类的指令有时过于简短,目前的方法无法捕捉和遵循。多模态大语言模型MLLMs))在跨模态理解和视觉感知响应生成方面显示出很好的能力。我们研究了mllm如何促进编辑指令和呈现mllm引导的图像编辑(MGIE)。MGIE学习推导表达指令并提供明确的指导。编辑模型共同捕获这

文章图片
#语言模型#人工智能
    共 51 条
  • 1
  • 2
  • 3
  • 6
  • 请选择