简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
现在可以将上一次的输出作为下一次的输入,从而 实现对图片的无限外扩。此外,还支持选择比例和扩展方向。记得以前 B 站有很多类似的图片 无限外扩 会怎么样的视频,现在可以用来批量处理这些视频了。
是清华和上海人工智能实验室推出的一个开源高质量多功能的图像修补模型,同时支持插入物体、移除物体、图像扩展、形状可控的物体生成功能。清华 PowerPaint:多功能局部重绘模型。
是一个能够接受多模态输入的开源图像生成模型,只需输入提示词,就能自动识别输入图像中的特征,就像是内置了 ControlNet、IpAdapter 等预处理模型。这个模型使用特殊的 XML 标记提示词,可以实现文生图、风格迁移、角色一致性、图像编辑和图生图。官方提供了在线使用,你们可以自己玩下。
不过已经有人基于这个 PR 做了一个 Space,可以在。来支持局部重绘,但没有合并。
支持通过摄像头即时生成,如视频所示。: 官方提供的演示,仅支持通过视频生成。
是阿里推出的一个 FLUX-dev 下的重绘 Controlnet,能很好的将图像中的 Mask 区域重绘并完美融入。目前这是一个 alpha 版本,官方表示未来会发布更新版。
是一个基于 diffusion 的发型克隆框架,可以将任意参考角色的发型迁移到用户提供的人脸上,可以理解为专为头发设计的 IPadapter。它的实现很有意思,先将用户提供的人脸转为光头,然后再将参考发型转移到光头照片上,细节和效果非常不错,很适合理发店用呀,期待早日开源!
是最新的开源视频生成模型,它能够在 H100 上实现生成速度比播放还快,仅需 4 秒即可生成 5 秒的 768x512 24fps 视频。除了文生视频外,LTX-Video 也支持图生视频,并且可以在 ComfyUI 中使用。不过,生成质量还是比不了商业模型。
模型,将上下文长度从 128k 扩展到了 1M,相当于 100 万个英文单词或 150 万个汉字,这大约是 10 本长篇小说、150 小时的演讲稿或 3 万行代码的容量。虽然模型只支持通过 API 接入,但其价格比 GPT4o-mini 便宜很多,目前除了 Gemini 外,它是上下文长度最高的模型了。
本次带来了 0.5B、3B、14B、32B 四个尺寸,其中 32B 模型以碾压姿态超越了一众开源模型,甚至比肩 GPT4o 和 Claude 3.5 Sonnet。官方还演示了如何结合 Cursor 在 1 分钟内实现一个贪吃蛇游戏,并通过 Open WebUI 实现了类似 Claude Artifacts 的功能。此外,通义官网还即将上线代码模式,支持一句话生成网站、小游戏和数据图表等各类可视化