
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
该模型支持 7 种控制模式,包括 canny (0), tile (1), depth (2), blur (3), pose (4), gray (5) 和 low quality (6),并且还能和其他 ControlNet 一起使用。

阿里通义 Qwen3 系列大模型[1]正式推出,本次开源了 2 个 MoE 模型和 6 个密集模型。旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中表现出色,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型不相上下。,官方号称世界上最快的扩散语言模型,在 A100 GPU 上可达到 2,800 tokens/秒

其特点在于结合了扩散模型的生成能力和多模态大语言模型的感知能力,从而实现了卓越的图像修复效果。代码和预训练模型均已开源,基于 Apache-2.0 许可证,可用于商业用途。是字节跳动与中科院发布的一款基于 DiT 的图像修复模型。

是一个开源的人体动作生成模型,能够生成符合自然物理规律的复杂人体动作,如奔跑、翻滚、跳跃、瑜伽等各种精通和运动姿势。,强烈推荐你们玩一下,可以用来调整世界的重力、风,角色的姿势、动作,或者编程动作。

本次带来了 0.5B、3B、14B、32B 四个尺寸,其中 32B 模型以碾压姿态超越了一众开源模型,甚至比肩 GPT4o 和 Claude 3.5 Sonnet。官方还演示了如何结合 Cursor 在 1 分钟内实现一个贪吃蛇游戏,并通过 Open WebUI 实现了类似 Claude Artifacts 的功能。此外,通义官网还即将上线代码模式,支持一句话生成网站、小游戏和数据图表等各类可视化

HiDream-I1[4] 是一个全新的 17B 参数开放权重生图模型,在各项基准测试中表现优异,甚至超越了 Flux dev 模型。MiniMax Audio[3] 最新推出了 Speech-02 语音合成模型,单次输入最高支持20万个字符,能够以超高的真实感生成语音,支持超过30种语言,最牛b的地方在于其语言切换时非常流畅。谷歌上线了Gemini Live[6] ,能够结合摄像头和屏幕共享功能

比起 LMSYS Chatbot Arena 或者 HF 上的其他竞技场,它们更注重的输出的质量而这个网站其实更利于我们选择一个合适的大模型 API,强烈安利!是吴恩达老师推荐的一个提供各大模型的质量、输出速度、价格对比等多维度分析的网站。

插件,该插件支持调试和微调本地及远程的大模型。通过使用 GitHub 账号登录,用户可以免费访问托管在 GitHub Models 上的多种模型,包括 GPT4o 和 o1-preview 等。这款插件现在已经成为我的提示词调试器,尽管目前的 Playground 功能还有待提升,但其优点在于无需脱离 VSCode 环境,无论你是否是开发者,我都推荐你试试。微软在 VSCode 上推出了。

70B & 8B 是一个完全开放数据、评估代码和训练算法的大模型。在 12 项基准测试中,其平均得分超越了许多同参数量开源模型,特别是 70B 模型,其表现甚至超越了 GPT4o-mini,直逼 claude 3.5 haiku。官方宣称,他们的目标是让任何人都能后训练模型,因此不仅开放了权重,还一并开放了整套基础设施。

官方还提供了一个浏览器插件,可以快速体验其核心功能。通过这个插件,用户可以用自然语言与任意网页联动,调用交互、提取、断言三种接口,无需搭建代码项目,极大地简化了测试流程。采用了多模态大语言模型,能够直观地“理解”你的用户界面并执行必要的操作,轻松完成 e2e 测试。字节的 web-infra 团队开源的。








