logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

IOPaint:21.7k star 开源AI图像修复工具,竟能秒删水印、一键抠图!

IOPaint 在开源性、功能覆盖、上手便捷性和性价比方面均具有显著优势,是。

文章图片
#开源#人工智能
效果媲美GPT4V的多模态大型语言模型MiniCPM-V-2_6详细介绍

是由nuoan开发的一款达到GPT-4V级别的多模态大型语言模型(MLLM)。该模型专为手机上的单图像、多图像和视频处理设计,旨在提供高效、准确的多模态内容理解与生成能力。随着移动设备的普及和计算能力的提升,用户对于在移动端进行复杂图像和视频处理的需求日益增长。MiniCPM-V-2.6的推出,正是为了满足这一需求,提供了一种在移动设备上实现高性能多模态处理的解决方案。模型可以对长视频进行快速的内

文章图片
#语言模型#人工智能#自然语言处理
CogVLM2:开启多模态AI新纪元的里程碑之作

最近,全球AI巨擘智谱AI推出了其第二代视觉大模型——CogVLM2,这款先进模型的发布,标志着多模态AI处理能力迈入了一个全新的高度。与前辈模型不同,CogVLM2采用“视觉优先”的核心理念,通过将图像特征直接对齐到文本特征空间,强化了视觉信息处理,并提升了文本与图像信息的交互性,显著增强其在多模态任务中的表现。这对于需要处理高质量图像的场景提供了无可匹敌的优势。模型的另一大亮点是创新的70亿参

文章图片
清华开源TurboDiffusion:视频生成200倍加速,秒级时代如何颠覆创作?

2025年12月,清华大学TSAIL实验室与生数科技联合开源了视频生成加速框架TurboDiffusion。

文章图片
#经验分享
3步创建智能数字员工:TextIn+火山引擎颠覆企业文档处理,效率提升90%

近期,合合信息TextIn与火山引擎联合升级的“大模型加速器”正式发布,旨在解决企业文档处理中的格式碎片化、语言壁垒及大模型幻觉等核心痛点。该方案通过TextIn的高精度解析与火山引擎的低代码平台协同,为企业提供快速构建智能数字员工的路径。本文将深入解析如何三步实现从非结构化文档到自动化业务处理的效能革命,并探讨其能否真正解决企业AI落地的“最后一公里”难题。想象一下,你的法务同事正对着一份20页

文章图片
#火山引擎#人工智能#经验分享
阿里开源0.8B语音识别模型fun-asr,性能直逼12B巨头,语音AI迎来效率革命

近日,阿里巴巴通义团队开源了Fun-ASR-Nano-2512和Fun-CosyVoice3-0.5B-251

文章图片
#经验分享
元搜索库终极对决:4get、SearXNG、DDGS…谁才是全网隐私之王?

修改secret_key:随机 32 位字符串0.0.0.0(如需局域网访问)重启生效docker-compose restart通用搜索垂直搜索匿名引擎在my_custom:q={query}"重启 DDGS,新引擎立即生效,无需 PR、无需重启服务。SearXNG插件系统:搜索结果二次处理、主题皮肤、统计面板应有尽有。自定义引擎:YAML 里加 5 行配置即可接入小众学术库。DDGS想怎么玩就

文章图片
#java#开发语言
Vosk开源语音识别:50MB离线神器,树莓派到手机全搞定

文章概要Vosk是一款由阿尔汉格尔斯克国立技术大学团队开发的开源、离线优先语音识别工具包。

文章图片
#经验分享
具身智能2026:繁荣之下三大隐忧与破局路径

2025年具身智能迎来融资热潮,融资额超500亿元,政策写入政府工作报告,被视为新经济增长点。

文章图片
#经验分享
AI Agent:从玩具到基础设施的关键转折

英伟达敏锐捕捉到这一拐点,推出NemoClaw——这并非又一个智能体开发框架,而是一场精心布局的“操作系统战争”宣言。如果说CUDA解决了“如何高效训练模型”,那么NemoClaw的目标则是回答“如何让AI在企业生产系统中可靠、可管理地执行复杂任务”。它试图将AI从实验室演示品,转变为可调度、可监控、可回退的生产力引擎。更关键的是,英伟达甚至允许NemoClaw运行在非自家芯片上。

#人工智能
    共 125 条
  • 1
  • 2
  • 3
  • 13
  • 请选择