logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【LLMs+小羊驼】23.03.Vicuna: 类似GPT4的开源聊天机器人( 90%* ChatGPT Quality)

Vicuna(音标 vɪˈkjuːnə ,小羊驼、骆马)是基于LLaMA的指令**微调**模型(类似GPT的文本生成模型)与LLaMA:是基础大语言模型,用大量质量一般的互联网文本数据训练,与GPT3 、PaLM类似Vicuna 用ShareGPT网站的用户分享的7w条ChatGPT对话记录,对 LLaMA进行监督质量微调训练(Supervised Finturning),性能超越了LLaMa和S

文章图片
#Vicuna
【论文】2307.SDXL:Improving Latent Diffusion Models for High-Resolution Image Synthesis (已开源,有UI)

1.SDXL在用户偏好效果方面似乎大大**超过了v1.5和v2.1,甚至与并列!!2.SDXL很大(2.6B Unet 参) --> 比以前的SD更慢+更多的VRAM3.两个CLIP txt-encoders,而不是一个调节向量串联,拥有更好的文本图片对齐(更听话)4.略有改进的VAE5.处理低分辨率训练图像(以图像尺寸为条件的模型)、随机裁剪(以裁剪位置为条件的模型)和非方形图像(以长宽比为条件

文章图片
【论文综述+多模态】腾讯发布的多模态大语言模型(MM-LLM)综述(2024.02)

多模态大语言模型:Multimodal Large Language ModelsMM-LLM=预训练单模态模型( 含LLMs) + 微调对齐所有模态+ 输出调整MM-LLMs 利用现成的预训练单模态基础模型,特别是强大的大型语言模型(LLMs), 作为认知核心,赋予各种多模态任务能力。LLMs 提供了稳健的语言生成、zero-shot 迁移能力和上下文学习(ICL)等可取特性在这一领域中,主要关

文章图片
#人工智能
【中文视觉语言模型+本地部署 】23.08 阿里Qwen-VL:能对图片理解、定位物体、读取文字的视觉语言模型 (推理最低12G显存+)

Qwen-VL-7B`是阿里基于语言模型`Qwen-7B`(LLMs),研发的**大规模视觉语言模型**(Large Vision Language Model, **LVLM**)> Qwen-VL-Chat =大语言模型(Qwen-7B) +视觉图片特征编码器(Openclip's `ViT-bigG`)+ 位置感知视觉语言适配器(可训练Adapter)+`约15亿`训练数据+`多轮训练`

文章图片
【ComfyUI】图像重绘/ 图像到图像生成——Comfyui的基本使用(三)

comfyui的图像基本操作,重绘,img2img图像生成

文章图片
【在线+sdwebui】在线免费运行stable-diffusion-webui (无需配置环境)

【云平台】在线免费运行stable-diffusion-webui (无需配置环境)

文章图片
#云平台
【API调用gpt-4 (vision-preview)】基于微软的Azure OpenAI API

微软的Azure页面 : https://learn.microsoft.com/zh-cn/azure/ai-services/openai/concepts/models调用代码:https://learn.microsoft.com/zh-cn/azure/ai-services/openai/how-to/switching-endpointsopenai说明: https://platf

文章图片
【SVD生成视频+可本地部署】ComfyUI使用(二)——使用Stable Video Diffusion生成视频 (2023.11开源)

2023年11月21日** 由 `Stability AI` 开源2个`图片到视频模型它将静止图像(still image)作为条件帧(conditioning frame),并从中生成视频分辨率(`1024x576`)。1. 上传已有1张图片,生成相关的视频片段、生成视频长度2-5秒,帧率 3-30帧每秒,2. 串联一个Stable-XL模型,生成图片后,再生成视频(文字到图片再到视频)

文章图片
#视频生成
    共 36 条
  • 1
  • 2
  • 3
  • 4
  • 请选择