logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Qwen3-TTS 完整指南:开源文本转语音模型详解

阿里巴巴Qwen团队发布开源文本转语音模型Qwen3-TTS,提供1.7B和0.6B两个版本,支持10种语言和49+种音色。该模型具备3秒语音克隆、97毫秒低延迟等核心功能,性能优于竞品,采用Apache2.0许可可商用。硬件要求从4GB到12+GB VRAM不等,支持量化优化和微调,适用于内容创作、对话式AI等多种场景。

文章图片
#开源#人工智能#语言模型 +2
如何使用AI图片扩展器扩展图片边界:2026年完整指南

AI图片扩展器(Uncrop)是一种基于人工智能技术的图像处理工具,它能够智能地扩展图片的边界区域,而不是简单地裁剪或拉伸图片。智能内容生成​:通过深度学习算法分析原图内容,自动生成与原图风格一致的扩展区域保持图片质量​:在扩展过程中保持原始图片的清晰度和细节自然过渡效果​:确保扩展区域与原图之间的无缝衔接,避免生硬的边界AI图片扩展器技术代表了图像处理领域的重大创新。通过深度学习和内容感知填充技

文章图片
#人工智能
如何使用AI图片放大器提升图片质量:2026年完整指南

AI图片放大器利用深度学习技术提升图像质量,突破传统放大方法的局限。通过超分辨率技术和卷积神经网络,它能智能重建细节、减少噪点,支持1080P到4K多种分辨率选择。Z-Image平台提供快速处理、批量操作和隐私保护等优势,适用于专业设计、照片修复和电商等场景。操作简单:上传图片、选择分辨率即可获得高清结果,处理时间30秒至5分钟不等。AI图片放大器为图像处理带来革命性突破,让低分辨率图片重获新生。

文章图片
#人工智能
16.4B参数仅激活2.8B!Kimi-VL-A3B开源:长文本、多模态、低成本的AI全能选手

Kimi-VL通过轻量化架构设计与渐进式训练策略,证明了小模型也能实现高性能多模态推理。其开源协议(MIT)与易用性为开发者提供了低成本落地方案。无论是学术研究还是工业应用,Kimi-VL都值得一试!

文章图片
#人工智能#大数据#开源
不止中英双语!港科大 LLaSA 模型让 AI 语音带上喜怒哀乐,15秒克隆你的声音!

港科大 LLaSA 模型无疑是 TTS 领域的一个重要里程碑。它不仅在中英双语合成上达到了极高水准,更在情感表达和快速语音克隆方面取得了显著突破,极大地提升了合成语音的自然度和个性化程度。

文章图片
#人工智能
全球第二!中国17B开源图像模型HiDream-I1登顶榜单,比肩GPT-4o

HiDream-I1 以其 170 亿的庞大参数、登顶 HPSv2.1 的图像质量、媲美顶尖模型的指令遵循能力,以及完全开源可商用的开放性,为文生图领域树立了新的标杆。

文章图片
#语言模型#人工智能#大数据 +1
AI视频修复技术入门:从Sora水印谈起,我们如何“抹去”未来影像的瑕疵?

AI视频修复技术正成为处理AI生成内容瑕疵的关键工具。不同于静态图片修复,视频修复面临更高难度,需同时满足空间和时间一致性。现代AI通过深度学习"理解与重绘"时空信息,像专业修复师一样重建画面。一些Web应用(如sora2watermarkremover)已将该技术产品化,提供简单操作界面,让普通用户也能精确移除视频中的水印或物体。优质工具应具备精确控制、高质量输出、便捷使用和

文章图片
#人工智能#音视频#开源 +2
开源视觉语言模型MiniMax-VL-01:动态分辨率+4M超长文本,性能比肩GPT-4o

在人工智能领域,构建能够像人类一样理解、思考和行动的智能体(AI Agent)一直是研究人员的终极目标之一。而实现这一目标的关键在于模型是否具备足够强大的感知能力、记忆能力和推理能力。近期,国内人工智能公司MiniMax重磅开源了其最新的视觉语言大模型 MiniMax-VL-01,以高达 400万 tokens的超长上下文窗口和顶尖的多模态能力,为AI Agent的未来发展注入了强大的动力。

文章图片
#语言模型#人工智能#自然语言处理
RolmOCR重磅开源:基于Qwen2.5-VL,速度提升40%,手写/倾斜文档识别准确率超92%

RolmOCR的发布,无疑为开源OCR领域注入了新的活力。它基于强大的Qwen2.5-VL视觉语言模型,实现了速度、效率、准确性(尤其在处理手写和倾斜文档方面)的显著提升,并具备了超越传统OCR的文档理解能力。

文章图片
#人工智能#开源#语言模型
Llama 4 来了!AI 快站助你一键极速下载,抢先体验 MoE + 多模态 + 超长上下文

Llama 4 的发布无疑是开源大模型领域的一个里程碑。其 MoE 架构、原生多模态能力、以及惊人的千万级上下文窗口,将极大地推动 AI 应用的边界,尤其是在需要处理海量信息、进行多模态交互的场景(如科研、医疗、工程、内容创作等)。虽然目前 Llama 4 Reasoning 模型尚未发布,且新许可证对超大型企业有一定限制,但 Scout 和 Maverick 的开放无疑为广大开发者和研究者提供了

文章图片
#人工智能#开源#语言模型
    共 136 条
  • 1
  • 2
  • 3
  • 14
  • 请选择