爱吃饼干的熊猫个人主页

爱吃饼干的熊猫

2023-04-13 17:21:47 加入 DevPress

简介

该用户还未填写简介

未填写擅长的技术栈

暂无可提供的服务

字节跳动开源了其重磅研发的智能编程助手 TRAE Agent ，该工具基于大语言模型（LLM），通过多模型协同、动态任务拆解和全链路审计追踪等核心技术，实现了从局部辅助到全局自治的跨越，重新定义了软件工程的开发范式。

谷歌的Gemini 2.5 Pro预览版(I/O 版)的抢先体验版提前出来了！是2.5 Pro的升级版，构建交互式的Web应用能力是其强项。

FramePack 是一种下一帧（下一帧部分）预测神经网络结构，可以逐步生成视频，将输入上下文压缩为固定长度，使得生成工作量与视频长度无关。即使在笔记本电脑的 GPU 上，FramePack 也能处理大量帧，甚至使用 13B 模型。

OpenAI 正式推出其新一代图像生成模型 GPT Image 1.5，并同步在 ChatGPT 中上线独立的 “Images” 标签页。

Coze Studio是字节跳动开源的AI Agent开发工具，提供应用模板和可视化构建框架，支持插件、知识库和数据库的管理，但某些功能如音色定制仅限于商业版本使用。

Windows MCP工具通过AI控制Windows电脑，支持文件导航、应用程序控制、UI交互和QA测试，能够与Windows UI元素进行原生交互，集成了模拟鼠标点击、键盘输入和滚动屏幕等功能。

MegaTTS3 是由字节跳动推出的一款超大规模语音合成模型，参数量高达 450亿，是目前业内最强大的 TTS 模型之一。

allenai/olmocr是由Allen人工智能研究所(AI2)开发的一个开源工具包,旨在高效地将PDF和其他文档转换为结构化的纯文本,同时保持自然阅读顺序。

VibeVoice 不仅是一个 TTS 模型，更是一次对“实时、多角色、长上下文人类级语音合成”的系统性探索。它证明了：小模型也能实现大突破——在 0.5B 参数下，兼顾速度、表现力与可扩展性。

ag-ui是一种新协议，用于AI Agent与前端应用的交互，简化了AI客服的实现，采用轻量级事件驱动设计，支持多种传输方式和实时功能，提升了人机协作体验。

共 36 条

请选择