logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

编程革命来了!TRAE Agent实现从需求到落地的全链路自动化

字节跳动开源了其重磅研发的智能编程助手 TRAE Agent ,该工具基于大语言模型(LLM),通过多模型协同、动态任务拆解和全链路审计追踪等核心技术,实现了从局部辅助到全局自治的跨越,重新定义了软件工程的开发范式。

文章图片
#语言模型
代码转换+编辑+智能体工作流,Gemini 2.5 Pro全拿下!

谷歌的Gemini 2.5 Pro预览版(I/O 版)的抢先体验版提前出来了!是2.5 Pro的升级版,构建交互式的Web应用能力是其强项。

文章图片
#人工智能#语言模型
源超长视频生成模型:FramePack

FramePack 是一种下一帧(下一帧部分)预测神经网络结构,可以逐步生成视频,将输入上下文压缩为固定长度,使得生成工作量与视频长度无关。即使在笔记本电脑的 GPU 上,FramePack 也能处理大量帧,甚至使用 13B 模型。

文章图片
#语言模型
GPT Image 1.5:OpenAI 的“图像导演”,让 AI 真正听懂你的每一句话

OpenAI 正式推出其新一代图像生成模型 GPT Image 1.5,并同步在 ChatGPT 中上线独立的 “Images” 标签页。

文章图片
#人工智能#图像处理
字节跳动开源Coze Studio:零代码开发AI Agent,免费商用!

Coze Studio是字节跳动开源的AI Agent开发工具,提供应用模板和可视化构建框架,支持插件、知识库和数据库的管理,但某些功能如音色定制仅限于商业版本使用。

文章图片
#人工智能
Windows MCP让AI成为你的电脑管家,点击、输入、导航全自动化

Windows MCP工具通过AI控制Windows电脑,支持文件导航、应用程序控制、UI交互和QA测试,能够与Windows UI元素进行原生交互,集成了模拟鼠标点击、键盘输入和滚动屏幕等功能。

文章图片
#人工智能#自动化
450亿参数加持!字节跳动 开源MegaTTS3 模型,开启语音合成新时代

MegaTTS3 是由字节跳动推出的一款超大规模语音合成模型,参数量高达 450亿 ,是目前业内最强大的 TTS 模型之一。

文章图片
#人工智能#语言模型
OlmOCR,被誉为可在本地部署的顶尖OCR大模型

allenai/olmocr是由Allen人工智能研究所(AI2)开发的一个开源工具包,旨在高效地将PDF和其他文档转换为结构化的纯文本,同时保持自然阅读顺序。

文章图片
#语言模型
微软开源的实时 TTS 模型 VibeVoice-Realtime-0.5B,首包延迟仅为 300 毫秒

VibeVoice 不仅是一个 TTS 模型,更是一次对“实时、多角色、长上下文人类级语音合成”的系统性探索。它证明了:小模型也能实现大突破——在 0.5B 参数下,兼顾速度、表现力与可扩展性。

文章图片
#人工智能#语言模型
AG-UI:AI 用户交互协议,解决了Agent与前端应用连接和通信的问题

ag-ui是一种新协议,用于AI Agent与前端应用的交互,简化了AI客服的实现,采用轻量级事件驱动设计,支持多种传输方式和实时功能,提升了人机协作体验。

文章图片
#人工智能#语言模型
    共 36 条
  • 1
  • 2
  • 3
  • 4
  • 请选择