logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

硬刚Sora2!国产殿堂级影视视频生成神器GAGA-1来临!

国内AI视频生成工具GAGA-1评测:媲美Sora2的中文视频创作利器 GAGA-1作为国内AI视频生成新秀,在人物表情、唇形同步和中文理解方面表现突出。测试显示,其单人生成效果优于马斯克的Grok Imagine,尤其在中文语音-唇形同步和微表情处理上更精准。目前完全免费,10秒视频生成仅需3分钟。 优势: 出色的中文理解与语音同步 人物微表情还原度高 完全免费开放使用 不足: 多人场景表现不稳

文章图片
#音视频#计算机视觉#人工智能 +1
Coze工作流中的Agent卡片设置,助你事半功倍!

本文介绍了如何利用Coze平台提供的卡片功能优化Agent智能体的多模态输出显示效果。针对当前Agent只能以链接形式展示图片、视频等内容的局限性,作者详细演示了通过配置卡片模板与工作流变量相结合的方法,实现更友好的内容预览排版。具体步骤包括:创建卡片、配置图片组件、设置循环渲染变量、绑定工作流输出数据等。最终实现了表情包生成Agent的图片直接预览功能,显著提升了用户体验。该方法不仅适用于图片展

文章图片
#人工智能#自然语言处理#计算机视觉
别只拿 DeepSeek-OCR 当识字工具,它其实能干更多!

这个项目是我用工具花了不少时间折腾出来的,主要是结合 DeepSeek-OCR 模型 的强大特性,想做一个能在本地自由玩转 OCR 的小工具。通过集成 DeepSeek-OCR,不仅能精准识别图片里的文字,还能对图像内容进行描述,效果相当不错。目前项目已经完全开源,大家可以直接拉取代码在本地部署,省去重复开发的麻烦,开箱即用!🚀基于 DeepSeek-OCR 模型的 OCR 识别平台,集成 Fa

文章图片
#开源#人工智能#自然语言处理 +1
阿里“双生子”:Qwen-Image 与 通义万相,谁才是你的AI画笔?

阿里发布Qwen-Image和通义万相并非"重复造轮子",而是采取"双轨制"产品战略。开源模型Qwen-Image面向开发者,专注复杂文本渲染和精准编辑;商业产品通义万相则针对终端用户,提供一站式AI创作服务。两者API兼容,分工明确:前者通过开源构建技术生态,后者通过闭源实现商业变现。这种"引擎+整车"的组合,既推动技术创新又创造商业价

文章图片
#人工智能#计算机视觉#自然语言处理
Dify私有化离线部署redis启动问题:Restarting (11) Less than a second ago

摘要:Dify私有化离线部署时Redis容器反复重启,报错"fork: Cannot allocate memory"。问题根源为系统内存不足或配置不当,解决方案包括:1)修改宿主机内核参数vm.overcommit_memory=1;2)准备正确的redis.conf配置文件并挂载;3)调整docker-compose.yml配置。经测试验证,Redis容器可稳定运行,关键点

文章图片
#redis#人工智能
Dify最新版私有化部署遇坑指南一:Unable to create manifests file: NotFound: content digest sha256:c0a3caf

摘要: 在Dify离线部署过程中,使用docker save打包ARM架构镜像时出现manifests file缺失错误。经排查发现,未在打包命令中指定平台参数(--platform=linux/arm64),导致Docker默认打包为AMD架构镜像。解决方案为:在docker save命令中显式添加平台参数(如--platform=linux/arm64),成功打包后通过docker inspe

文章图片
#docker#人工智能
「重磅升级」Qwen-Image-Edit-2509上线:多图组合+一致性全面提升!

Qwen-Image-Edit-2509迎来重大升级,新增多图编辑功能,支持人物/场景/商品自由组合,并优化了一致性表现。改进包括:精准保持人物/商品ID,增强文字编辑能力(可改字体/颜色/材质),原生支持ControlNet条件控制(深度图/边缘图等)。新版本在娱乐性和专业性上均有提升,适合P图爱好者及设计营销场景。体验地址已开放,未来有望加入组图生成功能。

文章图片
#人工智能#自然语言处理#计算机视觉
一小时完成从设计到上线:Augment × Figma Make × MCP,AI 帮你收尾添彩!

本文介绍了一种结合Augment AI Coding、Figma Make和MCP接口的开发新方法,可快速生成高质量UI界面。通过Figma Make的AI对话功能,用户能轻松创建智能监控系统等UI设计,并利用插件转换为可编辑的Figma Design文件。再配合Augment配置的Figma MCP插件,可实现设计稿到代码的自动转换。该方法在Flutter跨平台项目中验证效果良好,UI还原度高,

文章图片
#figma#人工智能
「IndexTTS2 × ComfyUI 王炸上线,本地语音创作全面起飞!」

B站开源IndexTTS2语音模型在语音合成效果上有显著突破,支持本地部署与ComfyUI集成。本文介绍了IndexTTS2的本地部署流程,包括插件下载、模型配置及ComfyUI工作流创建。通过自定义节点,用户可实现文本到语音转换,并支持情感调节功能。主要步骤包括:下载项目到ComfyUI的custom_nodes目录、安装依赖、配置多模块模型文件,以及创建工作流进行音频处理。该方案为数字人开发提

文章图片
#人工智能#自然语言处理#计算机视觉
本地免费玩转高质量文生图:Qwen-Image + ComfyUI 8G 显存也能丝滑运行!

本文分享了在本地运行阿里Qwen-Image文生图模型的实测体验。Qwen-Image是20B参数的开源多模态模型,擅长复杂文本渲染和精准图像编辑,支持中英文等多语言输出。作者使用普通配置(8G显存)通过ComfyUI成功运行FP8量化模型,生成效果优于付费AI工具,单图耗时约360秒。文章详细介绍了模型下载、工作流配置和生成步骤,并展示了与可灵、即梦的对比效果图,证明Qwen-Image在画面质

文章图片
#人工智能
    共 20 条
  • 1
  • 2
  • 请选择