
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
RAG(检索增强生成)技术结合信息检索与语言模型,通过外部知识库检索增强AI的知识处理能力。趋动云推出基于【embeddinggemma-300m】嵌入模型和【qwen3-14b】生成模型的简易RAG项目示例,支持多语言、量化优化等功能。用户可一键部署体验,上传本地文档即可实现智能问答。项目提供快速开发环境,完成使用后需及时关闭避免额外费用。新用户可参与限时活动获取算力金奖励。

OmniGen 是智源推出的一款全新的扩散模型架构,专注于统一图像生成。它简化了图像生成的复杂流程,通过一个框架处理多种任务,例如文本生成图像、图像编辑和基于视觉条件的生成等。此外,OmniGen 通过统一学习结构实现了知识迁移,使其能够适应不同的任务和领域需求。该模型不仅高度简化和易用,还在图像生成领域展示了强大的灵活性。功能介绍:文本生成图像:通过文本描述生成相应的图像。图像编辑:根据用户需求

前几天 Meta 宣布推出一款新的 Llama 系列生成式 AI 模型:70亿参数的 Llama 3.3、又称 Llama 3.3 70B。CEO 扎克伯格在旗下社交媒体 Instagram 称,这是今年最后一次 AI 大模型更新,下一步就是明年 Llama 4 亮相。

FluxGym 是一款用于简化 Flux LoRA 模型训练的工具,特别适用于低显存环境(如12GB、16GB或20GB VRAM)。LoRA 模型是一种低秩适应技术,允许在较小的数据集上微调大型模型,而无需大量计算资源。FluxGym 为用户提供了一个图形界面,使得即使没有深厚编程背景的用户也可以轻松上手训练 Flux LoRA 模型。

Video-Background-Removal 是一款革命性的视频背景替换工具,旨在让用户轻松实现视频背景的快速更换。无论你是专业创作者还是普通用户,这款软件都能让你在几秒钟内改变背景,完全消除限制,随心所欲,随时随地想换就换!影视制作:在电影、电视剧中创建不可思议的场景转换,如科幻片中的星际旅行、历史剧中的时空穿越等。在线会议和直播:对于直播带货或教育培训等领域,主播或讲师可以使用多样化的场景

阿里通义万相Wan2.1模型登顶Vbench榜首第一,超越Sora、HunyuanVideo、Minimax、Luma、Gen3、Pika等国内外视频生成模型。而在今天,万相Wan2.1视频生成大模型正式开源!【DiffSynth-Studio】 模型已经在趋动云『社区项目』上线,无需自己创建环境、下载模型,一键即可快速部署,快来体验【DiffSynth-Studio】带来的精彩体验吧!

Story-Adapter 框架。所提出的迭代范式的说明,包括初始化、Story-Adapter 中的迭代和全局参考交叉注意 (GRCA) 的实现。Story-Adapter 首先仅根据故事的文本提示对每幅图像进行可视化,并将所有结果用作下一轮的参考图像。在迭代范式中,Story-Adapter 将 GRCA 插入 SD。对于每次图像可视化的第 i 次迭代,GRCA 将通过交叉注意在去噪过程中聚合

TANGO 是一项前沿的AI技术,旨在解决传统数字人生成技术中存在的局限性,如只能生成面部或唇形同步的视频片段。通过结合音频输入与参考视频中的动作数据,TANGO 能够生成与音频内容匹配的全身动作视频,使得生成的人物形象更加生动逼真。TANGO框架的开源和高效性为其在数字人领域的应用提供了广阔的前景。以下是几个潜在的应用场景:虚拟主持人: 利用TANGO框架,可以轻松生成与真实主持人相似度极高的虚

ChatTTS(Chat Text To Speech)是专为对话场景设计的文本生成语音(TTS)模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。ChatTTS支持中文和英文,还可以穿插笑声、说话间的停顿、以及语气词等,听起来非常真实自然(ChatTTS团队声称:突破开源天花板)。它通过优化语音合成过程,实现了更加自然和流畅的语音输出。这项技术特别适用于需

MiniCPM-V4.0发布:4B参数视觉模型在OpenCompass评测中超越GPT-4.1-mini等竞品。该模型专为移动端优化,在iPhone16ProMax上实现首token延迟<2秒、解码速度>17token/s。支持llama.cpp/Ollama等多种部署方式,已在趋动云平台提供一键部署服务。新用户可参与限时活动获取190元算力金奖励。项目地址:https://githu
