AI Compass前沿速览：Grok 4.3 与 Flipbook 同周登场，OpenLess、OfficeCLI、Career-Ops 与 FlashQLA 推动 AI 智能体与开源生态再升级

汀、人工智能

409人浏览 · 2026-05-07 15:31:13

汀、人工智能 · 2026-05-07 15:31:13 发布

AI Compass前沿速览：Grok 4.3 与 Flipbook 同周登场，OpenLess、OfficeCLI、Career-Ops 与 FlashQLA 推动 AI 智能体与开源生态再升级

AI-Compass 不只是一个 AI 资源汇总仓库，更是一套覆盖“学习认知、技术选型、工程实践、项目落地”的开源导航系统。无论你是刚进入 AI 领域的初学者，还是正在推进 RAG、Agent、多模态、推理部署等项目的开发者，都能在这里快速找到清晰的学习路径、关键资料与可复用的实践方案。

项目围绕博客、可运行代码、基础知识、技术框架、应用实践、产品与工具、学习资源、企业开源、社区与平台九大模块持续沉淀内容，既适合个人系统学习，也适合作为团队做技术调研、方案选型和能力建设的长期参考。把仓库放到本地后，还可以直接结合 Codex、Claude Code 等 AI 编程助手进行知识问答、专题检索、项目拆解和路线梳理，让仓库从“能看”真正升级为“能用”。

github地址：AI-Compass👈
gitee地址：AI-Compass👈

🌟 如果本项目对您有所帮助，请为我们点亮一颗星！🌟

1.每周大新闻

1.1 LongCat-2.0-Preview – 美团推出的万亿参数级大模型预览版

LongCat-2.0-Preview是美团推出的万亿参数级大模型预览版，采用MoE架构，基于国产加速卡完成全流程训推，支持1M超长上下文，目前开放内测并提供每日1000万免费Token，可助力处理海量长文本内容。

1.1.1 核心功能

超长上下文理解：支持1M token输入，可处理整本书籍、大型代码库等海量内容。
代码生成与推理：依托MoE架构调度专家网络，在编程、数学推理等任务中表现稳定。
多轮对话与语义检索：通过稀疏注意力机制，快速定位长对话历史中的关键信息，减少重复计算。
多模态内容理解：结合美团本地生活场景积累，深度解析复杂业务文档、图文混合内容。

1.1.2 技术原理

采用MoE混合专家架构，总参数1.6T但仅激活48B参与单次计算，通过门控路由动态选专家降低成本；采用N-gram Embedding将专家层参数前移，减少逐层计算；用稀疏注意力与跨层流感知索引，避免全量O(n²)计算，保障长上下文推理延迟；针对国产芯片自研FAG、Scatter等算子，性能损失控制在5%；通过V-ZB算法压缩显存至60GB以下，重构EP、TP、PP并行策略适配国产硬件。

1.1.3 应用场景

长文档分析与研报生成：分析师一次性输入百万字资料，完成摘要提取、观点对比与研报撰写。
大型代码库开发：开发者输入整个项目仓库代码，实现跨文件依赖分析、Bug定位与功能生成。
智能客服工单处理：电商、外卖客服基于超长上下文，理解用户历史订单与复杂投诉链路。
多语言批量翻译：翻译人员输入整本技术手册或影视字幕，利用长上下文保持术语一致性完成翻译。

1.2 新Buzzy AI – AI 视频编辑生成平台，对话式视频编辑

Buzzy AI是主打“Vibe Video Photoshop”理念的生成式AI视频创作平台，用户无需专业剪辑技能，通过自然语言对话即可完成视频编辑、增强或重构。它将复杂的视频后期制作简化为聊天式交互，提供Photoshop级的精细编辑能力，降低视频创作门槛。

1.2.1 核心功能

对话式视频编辑：以自然语言聊天指令驱动视频编辑、增强或生成，无需学习专业剪辑软件操作逻辑。
精细视频调整：支持光线调节、换装、背景更换、相机运镜等像素级的视频细节修改，达到Photoshop级精度。
无提示词视频重构：上传参考视频后，AI自动理解内容并生成风格化或场景化变体，无需编写复杂提示词。
多风格视频生成：支持从真实摄影到超现实艺术等多种视觉风格输出，适配不同平台内容创作需求。

1.2.2 技术原理

平台基于云端SaaS架构部署，采用多模态大语言模型理解自然语言指令，结合视频分割与目标检测算法实现像素级内容定位，通过扩散模型完成视频内容的生成与重构。其无提示词重构功能依赖视频内容语义理解模型，可自动提取参考视频的视觉特征与叙事逻辑，生成风格一致的衍生内容，所有处理流程在云端分布式计算集群完成。

1.2.3 应用场景

电商产品视频制作：运营人员可快速调节产品展示视频的光线、更换背景，生成多版本视频适配不同渠道投放。
社交媒体内容创作：个人创作者通过对话指令为TikTok、YouTube Shorts等平台制作风格化短视频，实现一键换装、背景替换。
广告创意迭代：营销人员基于已有素材，通过聊天式编辑快速生成多种创意变体，加速广告A/B测试流程。
品牌视觉统一管理：品牌运营人员对批量视频进行一致性的光线调节和风格化处理，维持品牌视觉调性统一。

1.3 Flipbook – AI 原生无限视觉浏览器，所有页面实时按需生成

Flipbook是由前OpenAI工程师团队打造的AI原生无限视觉浏览器，它摒弃传统HTML/CSS/JS技术，以AI实时生成的1080p像素视频流作为交互界面。用户可通过点击画面任意区域无限深入探索内容，实现沉浸式的视觉化信息获取，是对传统Web交互范式的颠覆性实验。

1.3.1 核心功能

AI像素流渲染：以AI模型实时生成的像素视频流替代传统网页代码，实现无代码界面呈现。
无限点击探索：支持点击画面任意区域，AI即时生成对应细节的新画面，逐层深入探索内容。
路径记忆导航：自动记录用户探索路径，提供可视化导航栏，支持一键回溯任意历史页面。
多模态输入：支持文本Prompt生成内容，也可上传图片进行解析与延伸探索。
实时视频流模式：基于LTX模型实现24fps动态画面，让静态内容具备流畅动画过渡效果。

1.3.2 技术原理

底层基于Lightricks开源的LTX-2/LTX-2.3 DiT视频扩散模型，采用云端GPU推理架构，通过激活缓存、量化、torch.compile及内存快照等优化技术，大幅压缩模型推理延迟，实现接近实时的交互响应。结合Agentic搜索能力拉取实时网络数据，确保生成内容的准确性；以像素流传输替代传统网页资源加载，彻底脱离浏览器DOM与布局引擎依赖。

1.3.3 应用场景

教育可视化：教师可将抽象的数学题、技术流程等转化为可视化画面，学生点击即可逐层拆解学习，降低知识理解门槛。
零代码原型设计：产品设计师无需编写代码，通过Prompt生成界面原型，点击元素即可快速迭代细节，提升设计效率。
探索式内容阅读：用户输入主题关键词后，可通过点击画面元素无限深入获取细分信息，适合深度探索陌生领域知识。
跨平台轻量展示：企业可通过它快速生成品牌或产品的可视化展示页面，支持桌面与移动端访问，无需适配多端代码。

体验地址：https://flipbook.page

1.4 Hogee – 百度智能云推出的一站式 AI 短剧与漫剧创作平台

Hogee是百度智能云推出的一站式AI短剧与漫剧创作平台，用户上传剧本或输入灵感，AI就能自动生成角色、场景和分镜视频，实现文本到视听内容的快速转化。它能将短剧制作成本降低70%-95%，还打通了创作到运营变现的全链路，降低内容生产门槛。

1.4.1 核心功能

AI短剧创作工作台：作为核心创作入口，支持上传多格式剧本或输入灵感，AI自动完成从文本到角色、场景、分镜视频的完整视听内容转化。
多格式剧本上传：支持txt、docx等5种主流格式，单文件最大10MB、10万字符，支持拖拽上传，适配不同用户的剧本存储习惯。
AI角色与场景生成：基于剧本内容智能提取角色设定和场景信息，自动生成对应的角色形象图与场景画面，省去人工设计环节。
分镜视频一键合成：自动解析分镜脚本并生成视频片段，将剧本直接转化为可预览的分镜视频，大幅提升制作效率。
OpenClaw数字员工矩阵：内置业务洞察、社媒运营等多类AI智能体，覆盖创作、运营、变现全流程，替代多个传统岗位工作。

1.4.2 技术原理

底层基于OpenClaw数字员工体系构建，该体系整合多模态大模型能力，通过自然语言处理技术解析剧本文本，提取角色、场景等核心要素；借助计算机视觉与生成式AI模型，生成匹配的角色形象图与场景画面；利用视频生成技术自动完成分镜脚本解析、片段生成与合成，实现文本到视听内容的端到端自动化转化，同时通过数据分析模型追踪内容表现，支撑运营与变现决策。

1.4.3 应用场景

小型制片团队：3-12人小团队投入10万元以内，即可用Hogee快速制作短剧，借助低成本优势打造亿级播放量作品。
MCN机构：利用平台批量生成短剧预告、片段切片等社媒内容，结合智能发布与数据复盘功能，高效运营账号矩阵。
IP改编方：依托百度整合的七猫、中文在线等IP资源，将小说等文学IP快速转化为短剧内容，拓展IP变现渠道。
跨境电商从业者：结合百度AI漫剧产业赋能计划，制作适配海外市场的短剧内容，用于跨境电商营销，提升品牌影响力。

项目官网：https://aidrama.hogee.baidu.com/

1.5 Grok 4.3 – xAI 推出的最新旗舰推理模型

Grok 4.3是xAI推出的旗舰多模态大语言模型，拥有约5000亿参数，主打Agentic工作流与极致性价比。它支持最长200万token上下文、原生视频理解，可直接生成PDF/PPT等结构化文档，API定价仅为竞品的1/12左右，在指令跟随评测中登顶全榜。

1.5.1 核心功能

Agentic推理引擎：始终开启深度推理，支持多步任务自动化与长文档分析，无输出token上限，擅长复杂工作流处理。
超长上下文处理：API端支持100万token、消费者端支持200万token，可一次性处理整本书、海量代码库或长视频内容。
原生多模态理解：支持文本、图像、视频输入，可识别视频物体、描述事件时间线，精准回答带时间戳的细粒度问题。
结构化文档生成：无需插件即可直接生成并下载PDF、PowerPoint、Excel文件，打通分析到产出的完整闭环。
内置代码执行环境：支持编写运行Python/SQL等代码，直接产出数据分析结果、可视化图表或可下载脚本文件。

1.5.2 技术原理

该模型采用Transformer架构，基于约5000亿参数的预训练模型开发，通过对齐强化学习优化Agentic推理能力。它使用滑动窗口注意力机制实现超长上下文处理，多模态模块采用跨模态对齐算法，将视频帧特征与文本嵌入空间映射。Prompt缓存技术通过哈希复用重复上下文降低推理成本，MCP框架支持远程工具调用与函数扩展，兼容OpenAI API协议实现无缝对接。

1.5.3 应用场景

法务/学术文档分析：企业法务或研究人员可上传整份法律合同、学术论文，模型自动提取关键信息、进行跨章节关联分析。
视频内容质检：媒体或安防从业者上传视频，模型按时间线解析内容，自动识别违规场景、标记关键事件时间点。
商业任务自动化：市场或财务人员可让模型自动完成营销文案撰写、财务模型搭建、商业PPT制作等多步协作任务。
代码快速开发：开发者借助内置代码执行环境，快速生成数据清洗脚本、验证算法原型，直接导出可运行的代码文件。
智能客服部署：企业通过API将模型部署为客服Agent，自动查询数据库、调用业务系统API，处理复杂售后工单。

1.6 HeiMaClaw – 黑马程序员推出的生产级企业AI Agent平台

HeiMaClaw是黑马程序员推出的生产级企业AI Agent平台，基于Harness Engineering理念构建，采用Python开发，复现OpenClaw核心架构。它能为企业提供安全、可靠、可扩展的AI智能体运行环境，助力企业落地AI自动化业务，同时可作为AI工程化人才培养的实践项目。

1.6.1 核心功能

双沙箱隔离技术：支持Firecracker硬件级与Docker容器级隔离，适配不同部署环境，保障AI操作安全。
智能任务处理：内置Planner、ReAct引擎与Subagent异步机制，实现任务分解、推理与并行执行。
事件溯源：将所有操作持久化为事件流，支持断点恢复、审计日志与时间旅行调试。
多Agent编排：异步派生子Agent，支持最多5个并发执行，具备状态追踪与超时保护能力。
性能优化：WarmPool预热池将Agent启动时间压缩至50ms内，支撑高并发场景。
多层架构：涵盖接入层、路由层、执行核心层等六层架构，保障系统灵活扩展与稳定运行。

1.6.2 技术原理

基于Harness Engineering范式，通过工程化约束抑制大模型幻觉，以“模型+Harness”构建Agent能力。采用LLM驱动任务规划，结合LangGraph实现复杂工作流编排；通过Firecracker微虚拟机或Docker容器构建安全隔离沙箱，搭配Secure Executor保障代码与数据安全；基于Event Bus实现事件驱动架构，以不可变事件存储状态变更，满足合规审计需求。

1.6.3 应用场景

企业AI平台搭建：为企业构建安全可审计的数字化员工基础设施，支撑各类业务自动化。
AI人才培养：作为AI大模型学科项目，帮助开发者从调模型升级为搭建企业级AI平台。
高安全场景任务：适用于金融、医疗等对数据隔离与操作合规性要求极高的任务执行场景。
多Agent协作：在复杂业务流程中，实现多个AI智能体协同工作、任务路由与冲突解决。
自动化运维：嵌入AI辅助开发工作流，实现质量门禁、回归检测与自动化测试等运维任务。

1.7 个平台免费体验阿里 HappyHorse AI 视频生成能力

这是阿里ATH团队打造的HappyHorse（快乐马）AI视频生成模型，已在10个平台开放体验。它可实现文生、图生、参考图生成视频等功能，能输出1080P电影级质感视频，为创作者提供高效的视频内容生产能力。

1.7.1 核心功能

文生视频：通过自然语言描述生成符合需求的15秒多镜头叙事视频，降低视频创作门槛。
图生视频：以图片为基础生成对应视频，支持将静态内容转化为动态画面。
参考图生成：依据参考图的风格、内容生成同调性视频，保障创作风格统一。
视频编辑：支持用自然语言或参考图对视频进行编辑，灵活调整视频内容。
API服务：面向企业和专业创作者提供标准化接口，可集成到自有工作流中。

1.7.2 技术原理

基于大参数多模态预训练架构，融合文本理解、图像特征提取与视频时序生成算法，实现文本、图像到视频的跨模态转化。采用分层帧间预测模型保障视频流畅度，通过超分辨率技术输出1080P高清画面，支持多镜头叙事的场景调度算法提升视频叙事能力。

1.7.3 应用场景

内容创作者：在LibTV、堆友等平台，输入文字或上传图片快速生成短视频素材，用于自媒体内容创作。
企业营销人员：通过阿里云百炼调用API，批量生成产品宣传视频，降低制作成本。
手机端用户：使用千问App，随时随地上传图片或输入提示词，生成个性化视频分享到社交平台。
专业工作室：结合MuleRun的组合工作流，先用图像模型生成参考帧，再用HappyHorse生成视频，提升制作效率。

阿里快乐马 HappyHorse 首发体验，9 大平台免费用：https://mp.weixin.qq.com/s/KJqmWb9GcWtZN-4mNWpMjg?scene=1&click_id=8

1.8 QoderWake – 阿里推出的生产级 AI 数字员工平台

QoderWake是阿里推出的生产级AI数字员工平台，预置6+岗位类型与100+技能，可24小时自主执行任务。它能对接现有办公工具，支持记忆管理与能力进化，帮助企业降低人力成本、提升工作效率，目前处于邀测阶段。

1.8.1 核心功能

多岗位数字员工：覆盖程序员、运营、分析师等6+岗位，可自动完成代码整理、需求跟进等对应工作。
自主任务执行：设置触发规则后，能自主规划并执行任务，异常时自动升级给人工处理。
技能扩展与管理：内置100+技能，支持自定义添加，还可对数字员工的记忆内容进行查看、纠正或遗忘。
工作流集成：对接GitHub、Slack等工具，融入现有协作流程，无需额外调整工作模式。
工作数据追踪：可视化展示入职天数、完成任务量、项目创建数等数据，便于效果评估。

1.8.2 技术原理

基于Harness-First架构打造，内置验证、故障恢复与跨任务状态持久化机制，保障长期稳定运行。通过五维经验沉淀与Anti-Rot防腐机制实现能力持续进化，避免性能退化。采用角色专属技能建模，而非通用模型套壳，结合双向记忆管理系统，支持人机共同成长。

1.8.3 应用场景

软件开发团队：部署数字程序员，自动整理代码变更简报、诊断错误、分诊告警，提升开发效率。
运维部门：让数字员工自主分析日志、定位故障根因、生成修复代码，实现运维流程无人值守。
企业市场部：使用数字内容编辑完成内容创作、多平台发布，降低重复劳动，提升运营效率。
数据分析岗：借助数字分析师自动生成业务报表、提炼数据洞察，辅助业务决策快速落地。
客户服务团队：通过数字客户经理跟进客户需求、处理反馈，提升客户关系维护的及时性。

官网地址：https://qoder.com/qoderwake
项目官网：https://qoder.com/qoderwake，点击”预约体验”按钮提交邀测申请

1.9 星火X2-Flash – 科大讯飞推出的MoE架构大语言模型

星火X2-Flash是科大讯飞推出的MoE架构大语言模型，总参数30B，支持256K超长上下文，基于华为昇腾910B国产算力训练。它专为Agent时代设计，在智能体任务执行等场景表现接近万亿级模型，Token成本不到主流大模型的三分之一，已开放API并接入多平台。

1.9.1 核心功能

智能体任务执行：支持深度研究报告生成、Skill管理调用等复杂Agent工作流，效果比肩万亿级模型。
代码生成：可快速生成包含结构、功能、案例的复杂Skill，如AI视频生成技能。
超长上下文处理：最大支持256K上下文窗口，满足长链路Agent任务的大Token消耗需求。
多平台兼容：已接入AstronClaw、Loomy等平台，兼容OpenClaw等主流Agent框架。
API服务：通过讯飞开放平台、星辰MaaS平台提供API调用，星辰Coding Plan已全面支持。

1.9.2 技术原理

采用30B参数的MoE混合专家架构，在保障性能的同时提升运行效率；基于华为昇腾910B国产算力集群训练，通过亲和国产芯片的算子和分布式策略深度优化；构建智能体数据自动合成平台，实现数据高效合成与闭环；将DSA稀疏注意力与MTP多token预测结合，把上下文拓展至256K，使国产算力训练效率从20%提升至90%；通过算法与工程创新，将强化学习场景下的采样解码效率最高提升2倍。

1.9.3 应用场景

复杂Agent工作流：科研人员用其生成深度研究报告，完成多步骤任务拆解与多轮上下文修正。
Skill开发：开发者借助它自动生成并管理AI视频生成等复杂Skill的结构与使用案例。
代码与运维：运维人员用其编写脚本、执行系统命令，实现自动化运维。
长文档分析：分析师依托256K上下文处理超长论文、报告，进行摘要提取与问答。
多模态编排：作为Agent大脑，调度可灵、Runway等平台，完成文生视频、图生视频的任务编排。

1.10 MindDR 1.5 – 理想汽车推出的多智能体深度研究框架

MindDR 1.5是理想汽车推出的多智能体深度研究框架，基于约30B参数模型实现业界领先性能。它采用规划、搜索、报告三智能体协作架构，搭配四阶段训练管线，跳过昂贵的mid-training环节，将训练token减少71.4%、卡时降低60%，已部署于理想同学在线产品，可低成本完成多源信息检索、推理及结构化报告生成。

1.10.1 核心功能

智能任务规划：由Planning Agent自动拆解用户复杂查询为独立子任务，实现研究流程的结构化拆分。
深度并行检索：DeepSearch Agent执行多轮搜索、证据验证与长程推理，支持多工具调用与并行子任务处理。
高质量报告生成：Report Agent整合多源检索证据，生成符合RACE标准的结构化Markdown格式长报告。
跨智能体记忆共享：通过Extended Chain-of-Thought与Tool Memory实现推理轨迹与工具调用信息的跨智能体流转与溯源。
多工具环境适配：提供统一工具接口，支持Web、Database、Browser、Python等多场景工具调用。

1.10.2 技术原理

采用三智能体分布式架构，通过Memory模块实现XoT推理轨迹与工具调用记录的跨智能体共享，避免单模型长上下文膨胀与能力耦合。训练管线分为四阶段：SFT冷启动阶段通过行为克隆建立工具调用与格式遵循基础能力；Search-RL阶段基于Li-veRL环境，采用GRPO/GSPO框架与动态调度奖励，优化长链路搜索决策效率；Report-RL阶段以RACE Rubrics为核心奖励，结合DAPO/GSPO算法优化报告生成质量；偏好对齐阶段通过DPO与Self-SFT解决时态一致性、表格格式等细粒度用户体验问题。数据合成方面，基于百度百科与维基百科构建知识图谱，生成多跳推理训练数据并混合真实用户查询，弥合分布差距。

1.10.3 应用场景

汽车行业深度调研：面向车企战略分析人员，可自动检索市场数据，分析竞争格局、价格战策略与技术路线，生成行业研究报告。
学术科研辅助：为科研人员提供文献检索、多源证据整合服务，自动生成符合引用规范的研究综述，提升文献调研效率。
金融投资研究：针对投资机构分析师，对上市公司、行业趋势进行多轮信息验证，输出结构化的投资价值分析报告。
智能座舱问答：作为理想同学的核心能力，为车主提供高可信度的汽车知识、出行方案等深度问答服务。

技术论文：https://huggingface.co/papers/2604.14518
arXiv技术论文：https://arxiv.org/pdf/2604.14518

1.11 Step Image Edit 2 – 阶跃星辰推出的图像生成编辑模型

这是阶跃星辰推出的新一代轻量级图像生成编辑模型Step Image Edit 2，参数量仅3.5B，却能超越12B-20B级开源大模型。它主打0.5-2秒的极速生图，支持图像生成、编辑、中英文渲染等功能，可满足IP创作、海报设计等多场景需求。

1.11.1 核心功能

图像生成：基于文本描述0.5-2秒快速生成高质量图像，大幅提升创作效率。
局部编辑：对图像特定区域进行精细化修改，保持非编辑区域内容不变，满足精准修图需求。
中英文渲染：针对文字编辑专项优化，可精准生成和修改图像中的中英文内容，适配多语言场景。
主体一致性：在多轮编辑或风格迁移中保持主体特征稳定，保障系列内容创作的连贯性。
风格迁移：将指定艺术风格应用到图像或局部区域，实现多样化视觉效果生成。

1.11.2 技术原理

采用多专家驱动的自演化学习框架，先从基座模型衍生细分任务专家分支，捕捉高噪声数据中的优质编辑轨迹，再通过迭代式自蒸馏将专家知识聚合回基座，在3.5B参数规模下突破能力上限。搭配分布匹配强化学习（DARL），以输出分布与参考分布的差距作为稠密奖励，避免样本评估偏差，提升训练稳定性与泛化性。同时使用超五千万条经三级质控的专项训练数据，保障模型输出质量。

1.11.3 应用场景

IP创作：面向动漫、游戏开发者，快速生成角色概念图与场景设定图，支持多轮风格调整与主体一致性保持，加速IP视觉资产开发。
海报设计：适用于营销人员，根据文案一键生成商业海报，精准渲染中英文标语，支持局部元素替换，降低设计门槛。
人像美颜：面向普通用户，对照片进行智能磨皮、妆容添加、背景替换等局部处理，实现写真级修图效果。
旅游修图：针对旅游爱好者，自动识别并替换天空、移除杂物、调整光影，将普通快照升级为质感大片。

1.12 帧赞 – 智象未来推出的专业级AI影视创作与协作智能体

帧赞是智象未来推出的专业级AI影视创作与协作智能体，提供从剧本解析到成片输出的全流程闭环服务，支持多角色团队协同，已实现商业级AI短剧量产，能大幅降低影视创作的时间与人力成本。

1.12.1 核心功能

全流程创作闭环：覆盖剧本智能解析、AI分镜、画面生成、后期粗剪与配乐全链路，无需跨平台操作。
导演级分镜控镜：内置专业分镜表，支持镜头多维度结构化设置，搭配无限画布整合参考素材。
高精度画面生成：集成自研及主流旗舰模型，支持多风格稳定输出，画面质量达影视工业标准。
多角色团队协同：支持导演、剪辑师等多角色在线协作，素材与进度实时同步，共享创作基准。
精细化项目管理：覆盖立项到交付全流程，支持多项目并行、进度可视化与权限分级管控。

1.12.2 技术原理

基于自研与主流多模态大模型架构，实现剧本语义解析、分镜逻辑推理与画面生成的端到端协同；采用分布式算力调度框架，支撑批量画面生成与实时协作；通过向量数据库构建数字资产库，实现标签化分类与智能检索；以角色权限控制协议保障多团队协作的数据安全与版本一致性。

1.12.3 应用场景

短剧与漫剧量产：影视团队可快速完成竖屏短剧、动漫剧集的分镜设计与画面生成，实现内容批量产出。
广告与品牌TVC：广告团队从创意分镜到4K成片的工业化生产，大幅降低传统广告拍摄成本。
绘本与漫画创作：内容创作团队借助AI生成故事分镜、角色与场景画面，统一视觉风格并加速出版。
教育与培训内容：企业或教育机构制作教学动画、培训片，通过可控AI生成保障内容专业度与一致性。

项目官网：https://aidrama.hidreamai.com/，点击首页”申请试用”按钮

1.13 Nemotron 3 Nano Omni – 英伟达推出的多模态推理模型

这是NVIDIA推出的开源多模态推理模型，属于Nemotron 3系列，采用30B-A3B混合MoE架构。它将视觉、音频、文本感知统一至单一模型，替代传统碎片化多模型堆栈，在文档智能、视频与音频理解等基准测试中达到领先水平，同时大幅降低推理成本与编排复杂度，可作为大型Agent系统的多模态感知子代理。

1.13.1 核心功能

统一多模态感知：原生支持文本、图像、视频、音频输入，在单一共享感知-行动循环中完成跨模态推理，保障上下文一致性。
文档智能处理：在MMlongbench-Doc、OCRBenchV2等文档理解基准上达到最佳精度，可解析多页扫描文档、图表等内容。
视频与音频理解：支持原生视频时序理解（含3D卷积与高效视频采样）和基于Parakeet编码器的音频感知，精准处理音视频内容。
Agent系统协同：作为大型Agent系统中的多模态感知与上下文维护子代理，与Nemotron 3 Super/Ultra等规划执行模型协同工作。
高效推理部署：支持FP8/NVFP4量化、多种推理引擎（vLLM、TensorRT-LLM等），在固定交互阈值下，视频推理吞吐量提升约9.2倍，多文档推理提升约7.4倍。

1.13.2 技术原理

采用Mamba2-Transformer混合MoE架构，30B总参数仅激活3B任务相关专家，实现4倍内存与计算效率提升。视觉端用3D卷积捕捉帧间运动，搭配高效视频采样（EVS）层压缩视觉token；音频端基于NVIDIA Parakeet编码器；以强文本模型为中心解码器，通过跨模态桥接实现统一推理。训练采用分阶段监督微调（SFT）扩展模态与上下文长度（最高262K），结合超230万次环境rollout的强化学习，适配复杂多模态场景。

1.13.3 应用场景

金融文档智能：金融机构用其自动解析财报、合同、发票等多页扫描文档，跨页关联图表与文字，完成审计问答与合规审查，提升文档处理效率与准确性。
医疗辅助诊断：医疗机构可借助它联合分析医学影像、病历文本及医生语音记录，辅助生成结构化诊断摘要与随访建议，辅助临床决策。
视频内容运营：媒体行业用它对长视频进行原生时序理解，自动生成带时间戳的摘要、标签、转录及关键帧引用，支撑媒体资产管理与内容分发。
广告合规审核：广告平台可批量处理视频广告素材，同步识别画面内容、背景音乐、口播文本，实现品牌安全与合规自动审核，降低人工审核成本。
企业自动化Agent：企业将其作为感知子代理，实时解析屏幕截图、UI界面与系统音频，驱动RPA或OpenClaw类Agent完成跨软件自动化操作，提升办公效率。

HuggingFace模型库：https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16
项目官网：https://developer.nvidia.com/blog/nvidia-nemotron-3-nano-omni-powers-multimodal-agent-reasoning-in-a-single-efficient-open-model/

1.14 CodeBanana – 出门问问推出的 AI 项目管理与协作平台

CodeBanana是出门问问推出的AI原生项目管理与协作开发平台，融合即时沟通、AI Agent执行与代码工作空间，定位为“Slack + Jira + GitHub + AI编程模型”一体化工具。它以“沟通即执行”为理念，让团队群聊成为项目上下文，AI Agent实时理解需求、生成代码并部署预览，解决传统工具链中团队协作断裂的问题。

1.14.1 核心功能

三位一体项目空间：集成群聊沟通、AI Agent执行与Workspace文件管理，无需切换多工具，提升协作效率。
多模型AI编程助手：支持Claude、GPT、GLM、Qwen等大模型，可按需切换，Agent直接读取项目文件生成代码。
实时协作编辑：提供代码与文档实时协作编辑能力，右侧对话区同步显示Agent执行过程与团队讨论。
智能需求澄清：需求宽泛时，Agent自动追问确认目标用户、核心功能、技术选型等关键信息。
自动项目构建：Agent自动完成依赖安装、代码编写、环境配置与服务启动，生成可访问预览链接。
Skills能力市场：支持将个人经验封装为可复用Skill，实现组织内能力共享与资产化。

1.14.2 技术原理

平台采用AI原生架构，以对话式AI Agent为核心，基于大语言模型的意图理解与代码生成能力，实现“沟通即执行”。通过微服务架构集成群聊、代码工作空间与任务执行模块，支持多模型调用接口，可动态切换Claude、GPT等模型。基于Cron Jobs实现定时与事件驱动的自动化任务，通过跨项目Agent协作（A2A）机制，实现分布式项目间的智能调度与人员@提醒，代码运行于隔离安全服务器，保障数据安全与环境独立性。

1.14.3 应用场景

初创团队快速迭代：3人小团队借助实时协作与AI辅助，以10人团队效率推进MVP开发，缩短产品上线周期。
跨职能项目交付：产品经理、设计师与工程师在同一空间沟通，实时查看代码变更，缩短评审与协作周期。
AI原生应用开发：通过Agent自动完成技术选型、代码生成与部署预览，加速AI工具原型验证与迭代。
远程分布式协作：替代“Cursor + 飞书”的断裂组合，为远程团队提供闭环协作体验，提升沟通与执行效率。
组织知识管理：通过Skills市场沉淀技术方案与最佳实践，帮助新人快速上手，实现组织能力复用与传承。

1.15 SenseNova U1 – 商汤日日新推出的原生统一多模态模型

SenseNova U1是商汤科技基于NEO-Unify架构推出的原生统一多模态模型，在单一架构内实现多模态理解、推理与生成，无需传统视觉编码器和VAE。开源Lite版包含8B-MoT稠密模型与A3B-MoE模型，在图像理解、生成等基准上达同量级开源SOTA，推理延迟显著低于同类竞品，8B版本可比肩部分商业闭源模型。

1.15.1 核心功能

多模态理解：支持OCR、文档解析、图表问答、视觉问答及多图推理，可处理各类视觉与文本混合信息。
图像生成：能生成写实、艺术及知识密集型图像，支持复杂信息图合成，对排版与文字渲染控制力强。
图像编辑：可实现风格迁移、目标移除、构图控制等精准编辑，还能基于逻辑推理完成图像修改。
交错生成：支持视觉与语言内容交错输出，实现图文混合创作，适用于制作教程、游记等内容。
统一推理：具备跨模态数学、常识与科学推理能力，能基于图像和文本信息完成逻辑推演任务。

1.15.2 技术原理

采用NEO-Unify原生架构，从第一性原理出发，彻底去除视觉编码器与VAE，消除潜在空间瓶颈。构建统一表征空间，将像素与文本信息在同一空间内端到端建模，避免模态间转译损耗。运用原生Mixture of Tokens（MoT）机制扩展架构，实现高效跨模态计算与参数利用。通过端到端训练，将图像与语言作为统一复合体直接输入，在同一计算流程中完成理解与生成。

1.15.3 应用场景

智能文档解析：企业办公人员可使用该模型自动识别扫描件、PDF中的文字、表格与图表，提取结构化信息并完成问答。
营销物料制作：营销人员输入文字描述，即可生成高质量电商海报、信息图，精准控制排版与文字渲染。
创意内容创作：内容创作者借助图文交错生成功能，制作图文混排的长文、教程与社交媒体内容。
图像二次创作：设计师可对现有图像进行风格迁移、目标移除等精准编辑，快速完成创意设计。
机器人具身智能：开发者可将其作为机器人“大脑”，让机器人在单一模型闭环内完成环境感知、逻辑推演到任务执行。

GitHub仓库：https://github.com/OpenSenseNova/SenseNova-U1
HuggingFace模型库：https://huggingface.co/collections/sensenova/sensenova-u1

1.16 EAPO – 阿里通义推出的全新强化学习框架

EAPO是阿里通义实验室推出的长文本推理强化学习框架，通过将监督信号下沉到证据提取过程，解决传统模型“蒙对答案但引用错误”的幻觉问题。该框架在8个权威长文本基准测试中，让30B模型反超120B的GPT-OSS及Claude-Sonnet-4等闭源大模型，已被ACL 2026录用。

1.16.1 核心功能

结构化证据推理：强制模型执行“任务分析→证据提取→推理执行→答案生成”四步工作流，通过特殊token分隔每一步，使中间证据状态可被直接监督。
多粒度过程奖励：构建包含格式遵循奖励、群组相对证据质量奖励和结果准确率奖励的复合奖励信号，从稀疏结果监督转向密集过程监督。
群组相对证据评估：对同一问题采样多条证据轨迹，由奖励模型统一评估并给出1-5分质量评分，组内归一化生成相对奖励，引导模型优先提取高质量证据。
奖励-策略协同进化：设计自适应闭环机制，将策略模型生成的高置信度、结果一致的优质证据链反哺奖励模型进行拒绝微调，使评判标准随模型能力动态进化。
长文本推理增强：在SEAL、LongBench-V1/V2等8个权威长文本基准上显著提升性能，实现小模型在长文本推理上反超大模型。

1.16.2 技术原理

基于Evidence-Augmented Reasoning（EAR）范式，强制模型在生成答案前从原文逐字摘录相关证据片段，通过特殊token拆分流程暴露中间证据状态，从根本解决幻觉问题。采用Group-Relative Evidence Reward机制，将强化学习优化目标从“结果正确”转向“证据正确”，对同一问题采样多条证据轨迹，由奖励模型评估并归一化生成相对奖励，抑制参数化捷径。引入Adaptive Reward-Policy Co-Evolution自适应闭环，通过Outcome-Consistent Rejection Fine-Tuning筛选高置信度rollout数据反哺奖励模型微调，实现策略与奖励模型同步进化。以Group Relative Policy Optimization（GRPO）为基座算法，构建格式遵循（α=0.1）、证据质量（β=0.3）、结果准确率（γ=0.6）加权的复合奖励机制，将稀疏结果信号转化为密集过程导向指导。

1.16.3 应用场景

AI搜索与问答：适用于AI搜索引擎场景，强制模型在海量检索结果中精准定位并引用支撑证据，杜绝幻觉式作答，解决“搜对了但答错了”的核心痛点。
专业领域文档分析：应用于法律、金融、医疗等需严格事实依据的场景，确保报告、分析有明确原文出处和证据链支撑，降低决策风险。
科研文献综述：服务于科研人员，支持跨越多篇论文的交叉验证与综合推理，自动提取关键实验数据并准确引用，确保综述结论均有文献依据。
企业知识库问答：针对企业员工，在超长内部文档、合同、手册中精准定位决策依据，帮助员工快速获取有明确出处支撑的业务答案，提升工作效率。

技术论文：https://arxiv.org/pdf/2601.10306

1.17 find-skill – Vercel Labs 推出的 Skill 搜索工具

find-skills是Vercel Labs推出的「元Skill」，属于开放Agent Skills生态的核心组件，内置于vercel-labs/agent-skills包中。它支持在Cursor等AI工具里通过自然语言搜索、发现并一键安装社区各类Skill，解决找Skill难、流程散、安装繁琐的痛点，是Skills CLI生态的入口级工具。

1.17.1 核心功能

自然语言搜索：在AI对话中输入需求，自动调用npx skills find检索匹配Skill，无需切换操作界面。
高热度Skill推荐：优先从skills.sh安装量排行榜推荐高热度、经过社区验证的可信Skill。
多维度筛选：支持按领域、安装量、作者来源筛选Skill，精准定位所需能力。
一键安装指引：搜索结果附带精确安装命令，可直接复制执行或让Agent自动完成安装。
安全风险评估：安装前展示Gen、Socket、Snyk等工具的安全检测结果，提示潜在风险。

1.17.2 技术原理

整体采用三层架构设计：CLI层以skills命令行工具作为包管理器，负责与本地文件系统交互，执行搜索、安装、更新等操作；索引层通过skills.sh服务端聚合GitHub上符合规范的公开仓库，按安装量、Stars、领域分类建立可搜索索引；Agent集成层采用Markdown规范定义Skill的触发条件与行为指令，安装后挂载到Agent上下文，当用户表达找Skill的意图时，Agent自动触发调用并解析返回结果。

1.17.3 应用场景

临时能力补全：开发者临时需要React性能优化、PR Review等专项能力时，可快速搜索并装载对应Skill。
团队能力标准化：团队统一安装该工具，确保成员使用同一套高质量Skill组合，减少开发环境差异。
第三方Skill准入审查：引入第三方Skill前，通过其安全评估功能快速判断作者可信度与代码风险。
跨工具能力迁移：在Cursor中找到的Skill，可直接同步给Codex、Kimi Code CLI等其他Agent，实现能力复用。

项目官网：https://skills.sh/vercel-labs/skills/find-skills

1.18 国产大模型Vibe Coding横评：DeepSeek V4和GLM-5.1实测对比

这是一篇国产大模型AI编程实测对比报告，对DeepSeek V4-Pro和GLM-5.1两款模型的前端代码生成能力进行PK。通过天气卡片、商业网站、全屏画板三个场景实测，结合专业代码点评，展示两款模型在真实开发中的表现差异，为开发者选择AI编程工具提供参考。

1.18.1 核心功能

多场景AI编程实测：模拟天气页面、产品展示页、交互画板等真实开发需求，测试模型代码生成能力。
双维度效果评估：从直观视觉体验和专业代码质量两个角度，对比两款模型的输出成果。
专业代码点评：借助Codex工具从需求理解、代码结构、性能意识等维度，提供专业技术分析。
行业趋势观察：结合实测结果，分析AI编程从功能跑通向优质交付进化的行业趋势。

1.18.2 技术原理

两款模型均基于大语言模型架构，通过预训练代码数据集学习编程逻辑与语法，采用Few-shot学习处理自然语言转代码任务。DeepSeek V4-Pro具备1M上下文窗口，依赖Canvas技术实现复杂动画细节，代码逻辑侧重技术细节打磨；GLM-5.1采用DOM+CSS驱动页面架构，通过数据结构组织信息，代码更贴近工程化开发模式，实现渲染效率与可维护性的平衡。

1.18.3 应用场景

前端快速原型开发：前端开发者可借助两款模型快速生成页面Demo，GLM-5.1适合追求开发速度与视觉质感的场景，DeepSeek V4-Pro更适合需要精细动画效果的需求。
AI编程工具选型：企业技术团队可参考实测结果，结合开发场景需求，选择适配的AI编程辅助模型。
大模型技术研究：AI研发人员可通过对比分析，研究不同大模型在代码生成任务中的技术路径与优化方向。
编程教学辅助：编程教育者可利用实测案例，展示AI编程的能力边界与应用价值，辅助编程教学工作。

1.19 腾讯研究院推出《AI Coding 观察报告 2.0》

这是腾讯研究院推出的《AI Coding 观察报告 2.0》，聚焦2025下半年至2026第一季度AI编程领域，验证首版7条非共识并提炼6个结构性洞察，揭示AI Coding进入丰饶时代后，稀缺性从代码编写转向规格定义、验证维护等环节，为行业提供趋势参考。

1.19.1 核心功能

验证行业非共识：对首版提出的7条AI Coding非共识进行落地验证，明确当前行业共识边界。
提炼结构性洞察：总结6项核心行业趋势，涵盖模型发展、工具演化、瓶颈迁移等关键维度。
分析生态重塑路径：解析AI编程工具向Agent-First转型、CLI与Skills生态崛起的具体形态。
预判就业市场变化：呈现开发者角色转型与非开发者入场带来的就业结构三层流动趋势。
揭示价值迁移方向：指出AI Coding价值从代码生成转向规格定义、验证维护等基础设施领域。

1.19.2 技术原理

模型层面采用“内部能力突破+差异化降权公开”双轨机制，Anthropic通过Mythos Preview与Opus系列拉开前沿与公开模型差距；工具架构向Agent-First演进，IDE升级为多Agent编排平台，以CLI作为内循环原生接口、MCP作为外循环企业接口，Skills用SOP封装能力形成三层架构；驾驭工程成为核心竞争力，多Agent编排从Sub-agents向Agent Teams演进，支持百级并行执行与12小时连续任务。

1.19.3 应用场景

企业技术战略规划：科技企业可参考模型趋同与分化趋势，制定自研+第三方模型混合策略，布局驾驭工程框架。
开发者角色转型：传统开发者可依托报告转向编排者角色，聚焦规格定义、Agent管理等高价值环节。
创业项目落地：个人创业者借助AI Coding零门槛特性快速生成产品原型，重点投入运营、合规等稀缺能力建设。
教育体系改革：高校可参考报告调整CS专业课程，增加Agent编排、驾驭工程等新兴技能培训。
安全风险防控：企业可针对AI代码漏洞与供应链攻击新场景，建立双轨降权+身份验证的安全防护体系。

技术论文：https://mp.weixin.qq.com/s/dKgn6ZCeI8qSTt1UueuDEg

1.20 Lovart 上线 GPT Image 2 模型，会员首月不限量使用

Lovart是一款AI设计协作工具，能根据用户需求生成品牌视觉资产、电商页面素材等设计内容，还支持精准编辑与风格统一，帮助设计师快速落地创意，提升设计产出效率与一致性。

1.20.1 核心功能

智能设计生成：基于用户需求分析视觉趋势、收集参考，生成匹配场景的全套视觉设计资产，满足电商、品牌宣传等设计需求。
精准触摸编辑：支持对设计内容进行局部针对性修改，保留原有合理元素，实现精准、可控的设计调整。
跨项目风格统一：记忆用户设计风格，在不同项目、不同格式的设计产出中保持视觉一致性，强化品牌识别度。
可编辑文本分层：将设计中的文本单独设为可编辑图层，修改文案时不破坏整体构图，提升文案调整效率。
实时视觉参考：实时搜索优质设计参考，转化为符合用户偏好的创意方向，为设计提供专业灵感。

1.20.2 技术原理

采用智能体架构（Agentic Intelligence），通过多系统协同处理设计需求：先通过意图分析算法解析用户需求，再调用实时网络搜索模块获取设计趋势与参考；生成阶段结合生成式AI模型与风格对齐算法，确保输出符合品牌调性；编辑功能基于图像语义分割技术，实现局部元素的精准识别与修改，同时通过分层渲染技术支持文本独立编辑。

1.20.3 应用场景

电商品牌运营：电商运营人员输入产品卖点与风格需求，快速生成商品详情页、活动海报等全套视觉素材，适配多平台投放。
初创品牌搭建：初创团队借助工具生成品牌视觉系统，包括Logo延伸设计、宣传物料等，快速建立统一的品牌视觉形象。
营销活动策划：营销人员根据活动主题，生成系列宣传海报、短视频素材，且能快速修改文案与局部元素，适配不同传播场景。
设计工作室提效：设计师用工具完成初稿生成与风格统一工作，将精力集中在创意优化上，提升团队整体设计产出速度。

🔗 官网：https://www.lovart.ai/

1.21 怎么用 AI 制作数据可视化大屏，爱图表一键生成

爱图表是一款AI图表智能体工具，它先理解数据再生成可深度编辑的可视化图表，还能提炼文档关键信息生成汇报PPT。其核心价值在于提升数据处理与汇报效率，让用户聚焦业务洞察，而非图表制作本身。

1.21.1 核心功能

自动匹配合适图表：接收数据后自动分类整理，生成专业清晰的可视化图表，直观呈现数据趋势与差异。
图表深度编辑：支持通过指令修改图表配色、标题等元素，也可直接修改表格数据，图表实时动态更新且保持风格统一。
AI数据分析：基于图表数据提炼核心结论，提供专业表述，助力快速生成有观点的专业汇报报告。
一键生成数据大屏：支持多场景模式切换，快速生成布局合理、支持多表联动的数据大屏，还可制作数据卡片、桑基图等。
专业数据处理：采用独立AI处理机制，内置数据结构识别与校验能力，规避错误与逻辑冲突，确保商务汇报的严谨准确。

1.21.2 技术原理

采用大语言模型驱动的AI智能体架构，内置数据结构识别算法，可对输入数据进行分类校验，自动匹配最优可视化模型；通过自然语言交互接口，将用户指令转化为图表编辑参数，实现实时渲染更新；具备多模态数据处理能力，可解析文档文本并提取结构化信息；开放API、Agent、Skill接口，采用微服务架构实现与外部AI工具的无缝集成，同时通过资产库、知识库实现数据资产的分布式存储与调用。

1.21.3 应用场景

职场月度汇报：职场人将运营数据导入爱图表，一键生成数据大屏，搭配AI生成的数据分析结论，快速制作专业汇报材料，提升汇报效率。
团队业务复盘：团队成员将多维度业务数据上传，生成可联动的数据大屏，会议中直观展示业务优劣，便于团队快速对齐问题与方向。
社群数据分享：运营人员将数据生成轻量化数据卡片，在社群中流转，让成员快速了解数据情况，提升信息传播效率。
商务报告制作：分析师使用爱图表处理调研数据，生成可编辑的专业图表，结合AI分析结论，快速制作严谨准确的商务报告。

1.22 Claude Design系统提示词 – Anthropic 推出的完整核心提示词

这是Anthropic为Claude设计模式打造的核心系统提示词，定义了AI作为专家设计师与用户（经理）的协作模式，规范了从需求理解到交付验证的完整设计工作流，通过反AI味设计清单、工程化规范和双阶段验证体系，确保产出专业、一致的高保真设计成果，降低AI设计的模板化问题。

1.22.1 核心功能

标准化设计工作流：规范“理解需求-探索资源-规划-构建-验证-总结”六步流程，强制项目启动时提出至少10个澄清问题，确保需求精准对齐。
反AI味质量管控：内置设计禁区清单，禁止渐变滥用、Inter字体过度使用等AI常见设计套路，以占位符策略替代劣质实现，保障专业设计水准。
工程化规范约束：强制锁定React与Babel的CDN版本及完整性哈希，限制单HTML文件不超过1000行，要求样式对象采用组件特定命名，确保代码可维护性与跨环境一致性。
实时迭代调整：支持Tweaks面板，用户可实时修改颜色、字体、间距等参数，改动通过EDITMODE注释块持久化到文件，实现可迭代设计而非一次性生成。
双阶段质量验证：先通过done命令检查控制台错误确保页面不崩溃，再调用fork_verifier_agent在独立iframe中进行截图与布局深度审查，保障交付物稳定精准。
智能上下文管理：通过snip工具标记并移除冗余对话上下文，支持跨项目只读资源访问，有效支撑长周期复杂设计任务的高效推进。

1.22.2 技术原理

基于大语言系统提示词工程，采用角色定位与流程编码的架构设计，将专业设计方法论转化为机器可执行的指令集。通过强制绑定React和Babel的固定版本CDN链接及SRI完整性哈希，确保前端渲染环境的一致性；利用localStorage实现幻灯片与视频播放位置的持久化存储；通过snip工具的上下文裁剪机制，优化大模型对话窗口的内存占用；借助iframe沙箱环境实现独立的验证Agent，避免验证操作对主设计环境的干扰；采用JSON格式的注释块（EDITMODE-BEGIN/END）实现配置参数的持久化，支持前端界面与底层配置的双向同步。

1.22.3 应用场景

产品原型快速生成：产品经理无需专业设计技能，通过自然语言描述需求，即可快速生成可交互的高保真HTML原型，用于产品概念验证与内部评审。
营销物料自主制作：市场、运营等非设计岗位人员，可基于企业现有UI套件，独立完成营销海报、汇报PPT、品牌一页纸等物料的设计，降低对专业设计师的依赖。
设计风格批量探索：UI/UX设计师可借助该系统快速生成多版本设计风格变体，通过Tweaks面板实时调整参数，加速设计探索与决策过程，提升设计效率。
前端工程化实践参考：前端开发者可学习其中的组件拆分策略、版本锁定机制、状态持久化方案等工程化规范，应用于实际项目以提升代码质量与可维护性。
提示词工程研究：AI研究者与提示词工程师可分析其将复杂设计方法论、质量控制逻辑编码为系统提示词的架构思路，为构建垂直领域AI助手提供参考。

GitHub仓库：https://github.com/elder-plinius/CL4R1T4S/blob/main/ANTHROPIC/Claude-Design-Sys-Prompt.txt

2.每周项目推荐

2.1 新OpenLess – 开源 AI 语音输入法，口语自动转为结构化文本

OpenLess是一款基于Rust+Tauri+React+TypeStack构建的跨平台开源语音输入工具，支持macOS和Windows系统。用户按住全局快捷键说话，即可完成录音、ASR转写、AI润色，并将结果直接插入当前光标位置，核心差异化是可将口语自动整理成结构化的AI Prompt，对标Typeless等商业订阅产品，数据本地优先，隐私更可控。

2.1.1 核心功能

全局语音输入：在任意应用的输入框中，通过全局快捷键触发录音，松开后自动处理并将结果插入光标位置，覆盖ChatGPT、Notion、邮件等各类场景。
AI Prompt模式：将零散口语自动整理成结构化、带约束、有上下文的AI Prompt，可直接用于ChatGPT、Claude等AI工具，提升Prompt生成效率。
多输出模式切换：支持原文、轻度润色、清晰结构（AI Prompt模式）、正式表达四种模式，满足不同场景的文本输出需求。
双模式录音：提供切换式和按住说话两种录音方式，任意阶段按Esc可取消，适配不同使用习惯。
剪贴板兜底机制：若无法直接插入光标位置，结果会自动复制到剪贴板，确保内容不丢失。
词典与热词优化：支持自定义专有名词、产品名、人名词典，作为ASR热词注入并在润色阶段进行语义修正，提升转写准确性。

2.1.2 技术原理

整体采用Tauri 2架构，Rust作为后端提供高性能核心能力，React+TypeScript构建前端界面。全局热监听通过macOS的CGEventTap和Windows的WH_KEYBOARD_LL实现跨平台兼容；录音模块将麦克风输入转换为16kHz单声道Int16 PCM格式；ASR转写集成火山引擎流式ASR（WebSocket协议）和OpenAI Whisper兼容的批量ASR；AI润色基于Ark/DeepSeek/OpenAI兼容的Chat Completions协议，通过Prompt约束实现口语到结构化文本的转换；文本插入先通过AX聚焦元素直接插入，失败则自动降级为剪贴板复制，所有数据本地存储，凭据通过Keychain或本地JSON文件管理，确保隐私安全。

2.1.3 应用场景

AI工具Prompt生成：面向AI工具使用者，口述模糊需求，OpenLess自动将其整理成带约束、有上下文的详细Prompt，直接插入ChatGPT、Claude、Cursor等工具的对话框中使用。
办公文档起草：适用于职场人群，去除口语填充词、修正标点符号、重新组织段落，将随口说的内容转化为邮件、需求文档等正式书面表达，提升办公效率。
代码相关文本撰写：针对开发者，将脑海中的思路直接转为规范、简洁的代码注释、PR描述、提交说明等文本，插入到IDE或Git工具的光标处，减少打字工作量。
日常文本输入：覆盖普通用户的各类场景，如填写表单、撰写社交媒体帖子、会议速记整理等，按住快捷键说话即可完成文本输入，解决不想打字但必须输出文字的痛点。

Github仓库：https://github.com/appergb/openless
官网地址：https://openless.top/

2.2 新OfficeCLI – 专为 AI 智能体设计的开源命令行 Office 套件

OfficeCLI是iOfficeAI推出的全球首个专为AI智能体设计的开源命令行Office套件，以单一自包含二进制文件形式发布，内嵌.NET运行时，无需安装Microsoft Office或其他依赖，跨macOS、Linux、Windows全平台运行。它支持AI智能体通过一行代码完全掌控Word、Excel和PowerPoint文件的读取、创建、编辑与自动化处理，内置MCP服务器与SKILL.md技能文件，安装后可自动配置到Claude Code、Cursor等主流AI编程助手，实现零配置开箱即用。

2.2.1 核心功能

全格式文档操作：完整支持Word（.docx）、Excel（.xlsx）、PowerPoint（.pptx）的创建、读取、修改与批量处理，覆盖从基础文本到公式、图表、3D模型等高级元素。
三层渐进式架构：提供L1语义化读取层（支持文本、大纲、统计等视图）、L2结构化DOM操作层（可对元素进行增删改查等操作）、L3原始XML访问层（通过XPath直接操作，作为万能降级方案），满足不同复杂度的操作需求。
实时预览模式：通过officecli watch命令启动本地HTTP服务器，可在浏览器实时渲染文档修改效果，支持点击选中元素并反向同步到CLI，便于调试与设计。
AI自动集成：安装后自动检测并配置到Claude Code、Cursor、VS Code Copilot等主流AI编程助手，同时内置MCP服务器，通过JSON-RPC暴露文档操作能力，无需shell访问即可让AI智能体调用。
驻留内存与批量处理：officecli open命令可将文档保持在内存中，实现近零延迟的连续批量编辑，结合批量命令可在一个打开/保存周期内完成多步操作，提升处理效率。

2.2.2 技术原理

OfficeCLI采用.NET框架开发，编译为单一自包含二进制文件并内嵌.NET运行时，实现跨平台无依赖运行。其核心基于OpenXML标准解析Office文档，通过三层架构抽象操作复杂度：L1层对文档内容进行语义化封装，提供易读的文本、大纲等视图；L2层将文档结构转化为DOM模型，支持通过路径寻址（如/slide[1]/shape[2]）对元素进行增删改查，无需理解XML命名空间；L3层直接暴露原始XML访问能力，支持XPath查询与修改，满足极端自定义需求。

AI集成方面，通过内置MCP服务器实现JSON-RPC协议通信，安全地向AI智能体暴露所有文档操作工具；同时提供SKILL.md技能文件，包含命令语法、架构设计与常见陷阱，AI智能体读取后可自主学习操作方法。实时预览功能通过启动本地HTTP服务器，将Office文档元素转化为HTML/CSS/JS渲染，支持形状、图表、3D模型（借助Three.js）等元素的可视化，实现修改与预览的实时同步。

2.2.3 应用场景

自动化报告生成：开发人员可将OfficeCLI嵌入CI/CD流水线，从数据库或API获取数据后，自动生成Word、Excel或PowerPoint格式的报告，替代人工编写，提升效率与准确性。
AI驱动的演示文稿制作：内容创作者或办公人员可通过自然语言向AI智能体描述需求，由AI借助OfficeCLI全自动创建PPT，无需模板与人工编辑，快速生成符合要求的演示文稿。
文档批量处理：企业行政或运营人员可使用OfficeCLI批量处理文档，如进行格式标准化、批量查找替换、添加水印、提取结构化数据等操作，大幅减少重复劳动。
财务模型构建：财务人员可利用OfficeCLI的Excel高级功能，构建包含150+内置函数、数据透视表、条件格式的公式驱动型财务模型，如三表模型、DCF估值模型等，提升建模效率。
AI智能体办公自动化：企业可部署OfficeCLI与AI智能体结合，实现办公流程自动化，如自动处理合同、生成标书、整理会议纪要等，降低人力成本，提升办公智能化水平。

Github仓库：https://github.com/iOfficeAI/OfficeCLI

2.3 新Career-Ops – 开源 AI 求职系统，自动生成定制化求职材料

Career-Ops是基于Claude Code构建的开源AI驱动求职系统，定位为"智能过滤器"而非海投工具。它通过结构化评估帮求职者从海量职位中筛选高匹配机会，自动生成定制化求职材料。作者用该系统评估740+职位、生成100+ATS优化简历，成功入职Head of Applied AI岗位。

2.3.1 核心功能

智能职位评估：粘贴职位URL或描述后，自动执行角色概要、简历匹配等六维度分析，输出结构化报告。
ATS简历生成：基于职位描述动态调整简历关键词，用Playwright渲染PDF，确保通过招聘系统筛选。
门户扫描器：预配置45+家企业，自动抓取多平台职位，支持自定义查询。
面试故事库：在评估中自动积累STAR+Reflection格式素材，建立可复用的核心故事模板。
终端仪表盘：基于Go+Bubble Tea构建TUI界面，支持6种筛选标签、4种排序方式，实现全流程管理。

2.3.2 技术原理

系统采用多智能体架构，核心依赖Anthropic Claude Code大模型实现自然语言推理与决策。使用Playwright作为浏览器自动化框架，完成职位页面抓取与PDF渲染；基于Node.js构建核心业务逻辑，支持批量并行处理；通过Go+Bubble Tea框架实现终端UI交互；所有数据以Markdown、YAML、TSV等纯文本格式本地存储，支持Git版本管理，确保数据透明与隐私可控。

2.3.3 应用场景

大规模职位初筛：中高级技术/AI岗位求职者面对大量职位时，快速过滤匹配度低的岗位。
定制化简历投递：针对高匹配度职位，一键生成ATS友好的定制化简历，提升投递通过率。
面试系统准备：在投递阶段同步积累STAR格式行为面试素材，提前构建面试故事库。
薪资谈判支持：拿到offer后，利用系统内置的谈判框架和话术模板，提升薪资协商成功率。

Github仓库：https://github.com/santifer/career-ops
GitHub仓库：https://github.com/santifer/career-ops.git

2.4 gnhf – 开源的 AI Agent 自主编排器，夜间自主迭代

gnhf是一款开源的AI Agent自主编排器，主打“夜间自主迭代”模式，开发者睡前设定开发目标，它能在休息时自动循环执行代码改动，成功则自动git commit，失败则回滚，次日可获得干净的提交记录。它原生支持6种主流AI编程助手，具备跨平台运行、多任务并行等能力，能高效释放开发者时间，提升开发产能。

2.4.1 核心功能

夜间自主迭代：睡前设定开发目标，Agent在休息时段自动循环执行代码改动，每次仅做小调整，醒来即可查看完整迭代成果。
Git纪律驱动：成功迭代自动生成独立git commit，失败立即git reset --hard回滚，确保分支历史干净、可追溯且便于审计。
跨迭代记忆共享：通过notes.md文件在多轮迭代间传递上下文与经验，让Agent持续积累开发经验，无需每次从零开始。
Worktree多任务并行：同一仓库可启动多个独立gnhf任务，每个任务拥有专属工作目录和分支，互不干扰，适合并行推进多项开发任务。
断点续跑与容错机制：支持在已有gnhf/分支恢复任务进度，硬错误采用指数退避策略，连续3次失败或永久错误会自动中止并输出日志。

2.4.2 技术原理

基于TypeScript/Node.js技术栈开发，以Git为版本控制底座实现代码的提交与回滚。通过命令行接口（CLI）与主流AI编程助手进行非交互式调用，利用notes.md文件实现跨迭代的上下文记忆传递。采用Worktree机制实现多任务并行，为每个任务创建独立工作目录和分支。针对不同操作系统原生防休眠机制：macOS使用caffeinate、Linux使用systemd-inhibit、Windows通过PowerShell调用SetThreadExecutionState。运行日志以JSONL格式存储，包含完整的迭代输入输出与错误调用栈，便于问题排查。

2.4.3 应用场景

测试覆盖率补齐：开发者针对遗留模块或新功能设定测试补充目标，利用夜间时间自动生成单元测试、集成测试，无需占用白天核心开发时间。
多模块并行开发：在同一项目仓库启动多个gnhf任务，分别负责代码重构、依赖升级、文档补全等工作，并行推进提升开发效率。
开源项目日常维护：维护者设定自动处理“good first issue”目标，gnhf可自动完成简单重构、文档完善、依赖版本升级等工作，次日直接审核PR。
API层重构迁移：夜间自动执行接口参数调整、废弃方法替换、响应格式统一等低风险但机械的改动，避免干扰白天业务开发。
代码风格治理：设定代码规范修复目标，自动批量修复ESLint/Prettier警告、统一命名规范、移除未使用变量，长期保持代码库整洁。

Github仓库：https://github.com/kunchenguid/gnhf

2.5 Vibe-Trading – HKUDS 开源的 AI 多智能体金融工作空间

Vibe-Trading是香港大学数据科学实验室开源的AI多智能体金融工作空间，可将自然语言指令转化为可执行交易策略、研究洞察与组合分析，覆盖全球六大市场，多数基础数据无需API Key，支持一键导出至主流交易平台，以MIT协议开源，为投资者提供零门槛、可落地的量化投研能力。

2.5.1 核心功能

自然语言生成可执行策略：用日常语言描述交易思路，AI自动编写、测试并导出多类型交易代码，无需专业编程能力。
多智能体集群协作：内置29个预设DAG编排的专家智能体团队，模拟真实机构投研、交易、风控协作流程，提升决策专业性。
跨市场回测验证：支持7大市场及跨市场组合回测，集成蒙特卡洛模拟等统计检验，有效避免策略过拟合。
跨会话记忆与技能进化：AI持久记忆用户偏好与历史洞察，支持FTS5会话搜索，可自主创建并优化个人金融技能。
多平台策略导出：生成的策略可一键编译为TradingView、通达信、MetaTrader 5等平台代码，无缝对接实盘交易。

2.5.2 技术原理

基于Python 3.11+构建，采用FastAPI作为后端框架，前端使用React 19实现交互式界面。核心架构为ReAct智能体系统，通过5层上下文压缩技术实现长会话信息完整保留，结合FTS5实现跨会话记忆搜索。智能体团队采用DAG编排机制，实现多智能体任务协作与流式状态监控。回测引擎内置6大数据源，通过自动降级机制确保数据获取可靠性，集成蒙特卡洛模拟、Bootstrap置信区间等统计方法保障回测严谨性。同时支持MCP插件协议，可快速对接外部AI助手，通过Ollama实现本地大模型部署，兼顾数据隐私与使用成本。

2.5.3 应用场景

个人投资者投研：普通用户无需编程基础，通过自然语言生成交易策略，完成回测验证后一键部署到实盘平台，提升交易决策效率。
量化开发者工具集成：通过MCP插件将Vibe-Trading的金融分析能力嵌入Claude Desktop、Cursor等编辑器，为通用AI助手赋能专业金融技能。
金融机构隐私合规部署：通过Docker或Ollama本地部署，实现交易数据与策略逻辑全链路私有化运行，满足金融机构数据主权与合规要求。
加密货币全天候监控：利用内置的加密货币专项技能，分析永续合约资金费率、清算热力图等多维度数据，为加密资产交易提供决策支撑。
金融教学实践：金融专业学生可通过该平台快速掌握量化交易流程，无需搭建复杂的开发环境，降低量化学习门槛。

Github仓库：https://github.com/HKUDS/Vibe-Trading

2.6 Qwen-Scope – 阿里通义开源的大模型可解释性工具套件

Qwen-Scope是阿里通义千问团队开源的大模型可解释性工具套件，基于稀疏自编码器（SAE）技术，为Qwen3/Qwen3.5系列模型提取可解释特征。它能将模型内部复杂参数运算转化为人类可理解的概念，不仅可用于事后分析，还能通过特征级干预实现推理控制、数据处理与模型优化，成为连接模型内部与下游开发的实用接口。

2.6.1 核心功能

推理定向控制：无需显式自然语言指令，通过开启或关闭特定SAE特征，可实现语言、实体、风格的定向修改，修复如语言混用等生成故障案例。
数据分类与合成：基于少量种子数据发现毒性/安全相关特征，无需额外训练器即可实现分类；识别未激活特征并定向合成补充样本，覆盖模型长尾能力。
模型训练优化：定位语言混用、重复生成等异常激活特征，在监督微调（SFT）和强化学习（RL）阶段引入辅助损失，精准优化模型行为，降低低频故障发生率。
评测冗余分析：计算不同评测集间的特征激活模式，判断评测集冗余程度与能力覆盖度，指导挑选高覆盖、低成本的测试样本，提升评测效率。

2.6.2 技术原理

该套件在Qwen各Transformer层的残差流中插入稀疏自编码器（SAE），通过施加稀疏性约束，将高维激活向量分解为稀疏、可解释的特征字典。每层单独训练SAE，编码器将激活映射为过完备潜在表示，仅保留最大的k个激活（k=50/100）用于重建，确保特征高度解耦。通过构造正负样本集对比SAE平均激活差异，可识别与目标属性（如毒性、特定语言）最相关的特征方向。推理时通过公式h′ ← h + αd修改残差流（d为SAE特征方向，α控制干预强度），实现特征级干预。

2.6.3 应用场景

推理故障修复与风格迁移：针对英文提示下意外混入中文等语言混用问题，定位并抑制对应特征实现修复；激活古典中文特征，将现代文续写转化为古典文言文风格。
安全数据治理：基于SAE特征实现多语言毒性内容分类，仅需少量种子数据即可达到高F1值；定向合成安全训练数据，用4k合成数据即可接近120k真实数据的安全对齐效果。
模型训练辅助优化：在SFT阶段通过抑制语言特定特征激活，将Qwen3-1.7B的中文混入率从0.81%降至0.22%；RL阶段通过操控重复相关特征，提高异常回复采样频率，加速模型收敛。
评测集精简与优化：分析GSM8K、MATH等评测集的特征重叠矩阵，发现63%的GSM8K特征可被MATH覆盖，从而精简评测集，降低评测成本与时间消耗。

HuggingFace模型库：https://huggingface.co/collections/Qwen/qwen-scope
技术论文：https://qianwen-res.oss-accelerate.aliyuncs.com/qwen-scope/Qwen_Scope.pdf

2.7 Ling-2.6-1T – 蚂蚁百灵开源的万亿级综合旗舰模型

Ling-2.6-1T是蚂蚁百灵InclusionAI开源的万亿参数综合旗舰大模型，专为Agent、代码开发和复杂工作流设计。它采用MLA与Linear Attention混合架构，以极低Token消耗实现强综合智能，在多项执行类基准测试中达到开源SOTA水平，突出高智效比与生产环境落地能力。

2.7.1 核心功能

复杂任务执行：面向Agent、编码和自动化办公场景，支持规划、执行、修正、验证等连续任务推进。
全栈代码工程：覆盖代码生成、缺陷修复、多端开发等多样研发任务，提升开发效率。
多风格网页生成：将风格指令转化为可交互前端页面，支持工业风、数据看板等多风格原型。
跨场景智能写作：完成广告文案、品牌表达、跨语言内容等创作，保持风格稳定自然。
高精度知识库构建：从海量文档提取关键知识点，理清实体关系，作为记忆层辅助工作。
工具调用与编排：与主流Agent框架兼容，支持多工具、多步骤、多约束环境下的稳定执行。

2.7.2 技术原理

采用MLA多头潜在注意力与Linear Attention线性注意力混合架构，在保留万亿参数能力的同时降低计算开销。通过抑制过程冗余的强化奖励策略，减少无意义语义冗余，提升Token效率；运用演进式思维链策略，以高效"快思考"机制直达结果，压缩输出成本；搭配上下文冗余判断机制，主动过滤冗余信息，实现高信息密度推理输出。

2.7.3 应用场景

Agent自动化工作流：适用于企业复杂业务场景，承担长程自主规划、多工具调用与业务流编排，稳定推进多步骤任务。
软件工程开发：面向开发团队，胜任全栈代码生成、缺陷修复、游戏原型构建等人机协作编程任务。
前端设计原型开发：供设计师使用，将风格指令快速转化为可交互的Landing Page与产品原型，支持多风格迭代。
专业内容创作：为营销、内容团队生成广告文案、跨语言内容、社交媒体帖文等，保证风格统一与表达自然。
企业知识管理服务：面向企业运维部门，从海量文档提纯关键知识点，构建高精度记忆层接入业务系统，辅助知识管理。

HuggingFace模型库：https://huggingface.co/inclusionAI/Ling-2.6-1T

2.8 FlashQLA – 通义实验室开源的高性能线性注意力算子库

FlashQLA是通义实验室开源的基于TileLang的高性能线性注意力算子库，针对Qwen系列模型的GDN注意力层深度优化。在NVIDIA Hopper架构上，相比FLA Triton实现可获得2-3倍前向加速、2倍反向加速，能覆盖2B到397B规格模型，有效提升大模型预训练与端侧推理效率。

2.8.1 核心功能

高性能线性注意力计算：面向Qwen全系列GDN注意力层优化，大幅提升注意力计算的前向与反向速度。
算子融合加速：对GDN Chunked Prefill的前后向流程进行算子融合，减少内存访问与计算开销。
全规格模型适配：支持2B到397B多规格Qwen模型，覆盖TP1至TP8的张量并行场景。
双层级API接口：提供对齐FLA签名的高层API与底层前后向入口，兼顾易用性与灵活性。
变长序列支持：内置varlen处理能力，适配真实训练与推理中的变长数据分布。
自动卡内序列并行：基于GDN门控特性，在小头数、长序列等场景自动开启卡内并行，提升GPU利用率。

2.8.2 技术原理

基于TileLang构建Warp-Specialized融合核，通过warpgroup specialization实现数据搬运、Tensor Core与CUDA Core计算的重叠。利用GDN门控的指数衰减特性实现AutoCP自动卡内序列并行，在TP、长序列场景自动提升GPU SM利用率。通过滑动窗口warmup机制，仅用6-8个chunk即可获取子序列初始状态，省去修正量M矩阵计算。对GDN前后向流程进行硬件友好的代数改写，在不损失精度的前提下降低Tensor Core、CUDA Core及SFU开销。采用双融合核加CP预处理的折中架构，避免全融合核在小batch/TP场景下的低利用率问题。

2.8.3 应用场景

超大模型预训练：适配397B、122B等全系列Qwen模型，支持256K长上下文训练，降低注意力层训练算力与时间成本。
端侧智能体推理：针对batch_size=1的小模型场景，通过AutoCP提升小头数下GPU利用率，加速端侧Agent实时响应。
大模型线上部署：在TP场景下处理长序列输入，解决chunked prefill batch不足时的GPU利用率瓶颈，提升服务吞吐。
线性注意力架构加速：为所有基于GDN或线性注意力的LLM提供高性能算子替换方案，适配训练与推理场景。

GitHub仓库：https://github.com/QwenLM/FlashQLA
项目官网：https://qwen.ai/blog?id=flashqla

2.9 Hy-MT1.5-1.8B-1.25bit – 腾讯混元开源的手机端离线翻译模型

Hy-MT1.5-1.8B-1.25bit 是腾讯混元开源的端侧离线翻译模型，基于 HY-MT1.5-1.8B 基座构建，主打“高质量翻译 + 超低体积 + 手机可跑”。它支持 33 种语言、5 种方言或少数民族语言、共 1056 个翻译方向，在仅 1.8B 参数规模下依然具备很强的翻译质量；经过 1.25-bit 极低比特量化后，模型体积被压缩到约 440MB，适合在普通手机上离线部署，兼顾速度、精度与隐私。

2.9.1 核心功能

多语言离线互译：覆盖 33 种语言与 5 种方言或少数民族语言，可满足跨语种文本翻译与移动端本地翻译需求。
端侧高质量推理：在较小参数规模下仍保持较强翻译能力，面向手机等边缘设备提供接近大模型级别的翻译体验。
极低比特压缩部署：通过 1.25-bit 量化把原始 FP16 模型大幅压缩，降低存储与内存门槛，便于在更多手机设备上运行。
GGUF 与 Demo 配套：同时提供权重、GGUF 格式与 Android 演示 APK，便于开发者快速验证、集成与分发。
隐私友好的本地使用：离线运行无需联网，翻译内容不必上传云端，适合对数据安全敏感的个人与企业场景。

2.9.2 技术原理

该模型建立在腾讯混元 HY-MT1.5-1.8B 翻译模型之上，基座模型通过面向机器翻译的预训练、监督微调、蒸馏和强化学习等多阶段训练流程获得较强翻译能力。压缩阶段采用 Sherry 1.25-bit 三值量化方案，引入细粒度 3:4 稀疏策略，把每 4 个权重压缩为 5 bit 的有效表示，在显著缩小模型体积的同时尽量保留翻译精度。配合面向移动 CPU 优化的推理内核，可在手机端实现更好的 SIMD 对齐与运行效率，让离线实时翻译成为可落地能力。

2.9.3 应用场景

出海与跨境沟通：跨境电商、海外运营或国际业务团队可在弱网甚至无网环境下完成即时翻译，提升沟通连续性。
手机端随手翻译：普通用户在浏览网页、聊天消息、邮件或文档时，可直接在手机本地完成翻译，不必频繁切换在线工具。
隐私敏感行业部署：企业内部文档、客服对话或政企场景可采用本地离线翻译，避免内容上传外部服务带来的合规风险。
边缘设备产品集成：开发者可将模型集成到翻译 App、阅读器、旅游助手或智能硬件中，构建低延迟的本地语言服务能力。

HuggingFace模型库：https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit
ModelScope模型库：https://modelscope.cn/models/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/master/Hy-MT-demo.apk
arXiv技术论文：https://arxiv.org/pdf/2512.24092

2.10 Agent Skills – 谷歌开源的 AI 编程 Agent 技能包

Agent Skills是谷歌Gemini团队主管Addy Osmani开源的AI编程Agent技能包，将Google资深工程师的工作流与工程规范封装为20个Skill、7个Slash命令和3个Agent人设，覆盖软件全生命周期6个阶段，能让AI编程助手遵循生产级工程纪律，避免走捷径输出低质量代码。

2.10.1 核心功能

全流程Skill覆盖：20个生产级Skill覆盖定义、规划、构建等6个开发阶段，每个Skill含步骤、检查点和验证要求，确保AI遵循完整工程流程。
快捷Slash命令：7个Slash命令可一键触发对应开发环节，如/spec梳理需求、/plan拆分任务，提升AI编程效率。
专业Agent人设：提供code-reviewer、test-engineer、security-auditor三类人设，可针对性开展五轴代码审查、测试覆盖率分析、OWASP漏洞评估。
自动技能触发：可根据开发场景自动激活对应Skill，如设计API时激活api-and-interface-design，构建UI时激活frontend-ui-engineering。
反合理化机制：每个Skill内置AI常见借口及反驳论点，强制AI按规范执行，杜绝“稍后补测试”等敷衍行为。

2.10.2 技术原理

采用模块化Markdown架构，每个Skill以标准化SKILL.md文件存在，包含前置元数据、流程步骤、反合理化表和验证要求，支持渐进式加载减少Token消耗。通过Hook机制实现技能自动触发，兼容Claude Code、Gemini CLI等多平台的插件系统，将工程规范转化为AI可执行的结构化工作流，嵌入谷歌工程实践如Hyrum’s Law、测试金字塔、 trunk-based开发等原则，以证据驱动的验证机制确保交付质量。

2.10.3 应用场景

个人开发者标准化编码：为个人开发者的AI编程助手建立完整工程纪律，从需求定义到发布全流程规范AI输出，提升代码质量。
团队协作统一规范：将团队代码审查、测试策略、安全标准封装为Skill，确保团队成员使用AI时输出风格与质量一致，降低协作成本。
生产级项目质量管控：在长期迭代的商业项目中，通过/spec→/plan→/build→/test→/review→/ship全链路强制验证，保障项目交付可靠性。
多Agent并行自动化评审：上线前同时触发三类Agent人设，并行出具代码、测试、安全报告，提升评审效率与全面性。
遗留系统迁移治理：利用deprecation-and-migration和code-simplification技能，以“代码即负债”思维安全移除僵尸代码、简化复杂模块。

GitHub仓库：https://github.com/addyosmani/agent-skills
GitHub仓库：https://github.com/addyosmani/agent-skills.git

2.11 One-Eval – 北大开源的自动化大模型评测框架

One-Eval是北京大学OpenDCAI团队开源的Agent驱动大模型自动化评测框架，基于DataFlow与LangGraph构建，主打NL2Eval能力。用户通过自然语言描述评测目标，系统可自动完成基准推荐、数据处理、模型推理、指标匹配到报告生成的全链路流程，实现评测的低门槛与自动化。

2.11.1 核心功能

NL2Eval智能解析：将用户自然语言需求转化为可执行的评测任务，自动规划评测路径，降低使用门槛。
Bench Gallery基准库：内置GSM8K、MMLU、C-Eval等主流评测基准的元信息，支持统一管理与快速调用。
端到端自动执行：覆盖数据下载、模型推理、答案评分、统计分析全流程，自动生成多维度评测报告。
人机协同干预：支持在评测关键节点进行中断、审查、编辑与重跑，兼顾自动化与可控性。
异构数据统一接口：通过DataFlow引擎标准化不同数据集格式与列映射，实现异构数据的统一接入。

2.11.2 技术原理

采用Agent图编排架构，基于LangGraph构建状态机工作流，将评测拆解为NL2Bench、BenchResolve、Metrics & Reporting三大阶段，实现任务的模块化执行。底层搭载DataFlow算子系统，通过流式计算处理异构数据集的统一接入与转换，支持本地预置配置优先加载，缺失时自动调用HuggingFace工具获取数据元信息。系统实现可追踪状态管理，每一步执行状态持久化，支持断点恢复、回溯重跑与失败数据分析，保障评测流程的可审计性与可扩展性。

2.11.3 应用场景

模型选型初筛：AI开发者可快速对比多个候选大模型在数学推理、代码生成等维度的表现，辅助选型决策。
私有化模型验收：企业对自部署或微调后的模型进行标准化能力验收与回归测试，确保模型性能达标。
基准调研分析：科研人员通过Bench Gallery快速检索并配置特定任务的评测集，开展大模型能力基准研究。
学术实验支撑：为论文实验提供可复现、可追踪的自动化评测流水线，提升实验效率与结果可信度。

GitHub仓库：https://github.com/OpenDCAI/One-Eval
arXiv技术论文：https://arxiv.org/pdf/2603.09821

2.12 TIPSv2 – 谷歌 DeepMind 开源的多模态模型

TIPSv2是Google DeepMind推出的多模态图像-文本编码器，通过iBOT++、Head-only EMA与多粒度文本增强三大核心改进，解决了密集图像块与文本嵌入的精准对齐难题。该模型覆盖86M至1.1B参数规模，在9项任务、20个数据集上达到SOTA水平，尤其在零样本语义分割任务表现突出，目前已全面开源模型权重、代码及在线Demo。

2.12.1 核心功能

零样本语义分割：无需训练即可通过文本描述精确分割图像中物体边界，在ADE150等基准数据集实现+14.1 mIoU的性能提升。
双向跨模态检索：支持图像搜文本、文本搜图像的双向检索，在Flickr30K、COCO等数据集实现高召回率。
零样本图像分类：直接通过文本嵌入匹配完成ImageNet等分类任务，无需针对特定数据集重新训练。
场景几何感知：利用Patch级特征实现深度与法向量预测，为自动驾驶、机器人导航提供场景三维信息。
特征可视化：支持上传图片生成PCA特征图，直观展示模型对图像的语义感知细节，助力模型可解释性研究。

2.12.2 技术原理

iBOT++增强预训练：将Patch级自蒸馏损失扩展至所有token（含可见token），强制学生模型对齐教师模型的全部Patch表示，解决了传统iBOT仅监督masked token导致的局部语义丢失问题。
Head-only EMA优化：仅对投影头应用指数移动平均（EMA），相比全模型EMA减少42%训练参数和内存开销，同时通过对比学习信号防止模型坍塌。
多粒度文本监督：结合PaliGemma生成的局部字幕与Gemini Flash生成的全局深度描述，训练时随机交替提升模型鲁棒性，解决单一粒度文本监督的语义局限性。
联合训练框架：融合对比学习（LCLIP）与自监督学习（LDINO、LiBOT++）损失，同时接收文本监督与自监督信号，解锁底层网络的密集图文对齐能力。

2.12.3 应用场景

自动驾驶：利用零样本分割与深度估计实时理解道路场景，识别障碍物与可通行区域，无需针对新类别重新训练，降低开发成本。
电商内容系统：通过双向跨模态检索实现以文搜图、以图搜文，支撑商品智能推荐与违规内容自动化识别，提升运营效率。
医学影像分析：医生通过文本描述即可定位病灶区域，大幅降低专业医学图像的标注成本，辅助临床诊断决策。
机器人视觉导航：机器人接收自然语言指令后，对环境中特定物体进行细粒度视觉定位与抓取操作，提升服务机器人的场景适应性。
多模态模型研究：通过PCA特征可视化探索Patch嵌入的语义结构，为视觉-语言模型的架构优化与训练策略研究提供可解释性支撑。

GitHub仓库：https://github.com/google-deepmind/tips
HuggingFace模型库：https://huggingface.co/collections/google/tipsv2
arXiv技术论文：https://arxiv.org/pdf/2604.12012
项目官网：https://gdm-tipsv2.github.io/

2.13 Tolaria – 开源本地AI笔记工具，融合 Notion 与 Obsidian

Tolaria是面向AI时代的开源本地笔记工具，融合Notion的块编辑体验与Obsidian的本地数据主权理念，以纯Markdown+YAML格式存储笔记。它内置Git版本控制，支持双向链接与Type分类视图，通过MCP服务器可对接Claude Code等外部AI，让用户在不依赖云端的前提下，拥有自由可控的知识管理系统。

2.13.1 核心功能

块编辑体验：支持Notion风格的/命令、拖放图片与模块化排版，所有内容实时写入纯Markdown，兼顾编辑便捷性与数据通用性。
双向链接网络：通过[[wikilinks]]建立笔记关联，自动追踪反向链接与引用关系，构建结构化的知识网络。
内置Git版本控制：将整个笔记库作为Git仓库管理，支持提交、推送、历史浏览与Diff对比，替代传统回收站实现专业版本管理。
AI原生集成：内置MCP服务器，允许Claude Code等外部AI直接读取目录、搜索笔记、新建或修改文件，实现AI辅助知识管理。
查询视图：按类型、日期、标签等条件筛选笔记并保存为自定义视图，实现轻量数据库功能，便于快速定位目标内容。

2.13.2 技术原理

采用本地优先的文件架构，摒弃黑盒数据库，每篇笔记均为独立的.md文件并附带YAML frontmatter存储元数据，可直接通过系统工具读取检索。以Git作为底层存储引擎，笔记库即Git仓库，所有操作自动生成提交记录，借助成熟版本控制实现跨设备同步与历史回滚。通过内置Model Context Protocol服务器，将笔记库暴露为标准化上下文接口，使外部AI Agent能直接操作文件系统，避免AI能力封闭。基于Tauri、React与TypeScript构建，实现跨平台桌面应用，兼顾前端交互体验与系统资源效率。

2.13.3 应用场景

个人知识库构建：适合重视数据自主权的知识工作者，长期积累知识并通过Git跨平台同步，无需担忧数据锁定。
写作与内容创作：创作者可通过Type管理选题、素材与成稿，利用Git追踪文章修改全过程，借助AI工具辅助内容生成与整理。
技术文档管理：开发者可用Git管理技术文档版本，通过AI自动整理调试记录、对比方案，提升文档维护效率。
学术科研管理：科研人员可利用本地文件+YAML元数据管理文献、实验记录，通过查询视图快速筛选研究主题，优化科研资料管理。

GitHub仓库：https://github.com/refactoringhq/tolaria
项目官网：https://tolaria.md/

2.14 guizang-ppt-skill – 开源网页 PPT生成 Skill，输出 HTML

guizang-ppt-skill是适配Claude Code等AI Agent的开源技能工具，可将用户需求转化为电子杂志风的单文件HTML横向翻页PPT。它融合印刷杂志版式与电子墨水美学，提供预设布局与主题，无需构建工具即可直接在浏览器打开，帮助用户快速生成具有专业质感的演示文档。

2.14.1 核心功能

提供10种预设页面布局，涵盖封面、数据展示、图文混排等场景，满足不同内容呈现需求。
内置5套主题色预设，覆盖科技、自然、艺术等风格，通过CSS变量快速切换，保障视觉一致性。
支持多方式翻页交互，包括键盘、鼠标滚轮、触屏滑动等，搭配ESC缩略图索引，提升浏览体验。
集成AI图片生成功能，可调用GPT-Image-2模型生成匹配内容的配图，支持多种图片类型与规范。
输出单文件HTML产物，零依赖、零部署成本，跨平台兼容，便于分享与离线使用。

2.14.2 技术原理

基于HTML+CSS+JavaScript技术栈实现，采用组件化模板设计，通过template.html提供基础架构，CSS变量管控主题样式。WebGL技术实现封面流体动态背景效果，JavaScript事件监听处理多端翻页交互逻辑。遵循严格网格系统与字体层级规范，通过预定义布局骨架与质量检查清单，保障输出内容的排版专业性。技能工作流通过对话式需求澄清，将用户输入转化为结构化的PPT内容填充逻辑。

2.14.3 应用场景

线下行业分享：适合15-30分钟的内部讲话或私享会，选用对应主题强化演讲者个人专业风格。
AI产品发布会：采用靛蓝瓷主题，搭配数据大字报布局，契合科技产品的先锋展示调性。
创意提案展示：艺术设计类场景选用沙丘或牛皮纸主题，以杂志化排版提升提案的审美质感。
人文主题叙事：自然、文化类内容适配森林墨主题，电子墨水风格提供沉浸式的阅读体验。

GitHub仓库：https://github.com/op7418/guizang-ppt-skill
GitHub仓库：https://github.com/op7418/guizang-ppt-skill.git

2.15 GoSkill – 开源的长任务推进工具，内置重试循环与状态追踪

GoSkill是一款基于Python的轻量目标驱动执行工具，将任务从一次性调用转为围绕目标持续推进的执行模式。它聚焦于长任务、需明确验收标准的场景，通过循环执行与结果校验，直到达成目标或超时，为开发者提供过程可控的任务执行封装。

2.15.1 核心功能

目标驱动执行：支持以目标+成功标准定义任务，替代单一函数调用，聚焦任务结果达标性。
持续循环尝试：任务未达标时自动重复执行，无需手动重试，直到满足条件或触发超时。
内置状态追踪：提供status和terminal_status字段，实时查看任务执行阶段与最终状态。
双模式结果返回：支持run()基础执行与run_with_result()带结果返回两种调用方式，适配不同需求。

2.15.2 技术原理

采用单机单进程的循环执行架构，核心为目标校验循环：先定义目标与成功判定逻辑，执行任务函数后触发结果校验，未达标则进入等待重试流程，直至满足终止条件。基于Python装饰器与类继承实现任务封装，通过内置状态变量实现执行过程的可观测性，整体为轻量无依赖的执行控制框架。

2.15.3 应用场景

接口可用性校验：开发人员针对第三方接口，定义"请求返回200"为成功标准，通过GoSkill持续检测直至接口恢复。
数据同步任务：运维人员配置数据库同步任务，以"双向数据校验一致"为目标，工具自动重复同步直到数据对齐。
异步任务结果等待：开发场景中，针对异步执行的任务，通过GoSkill循环查询结果状态，直到任务完成或超时。

GitHub仓库：https://github.com/AIPMAndy/goskill

2.16 免费 AI 外观专利检索神器，跨境卖家必备刚需

这是一款面向跨境卖家的免费AI外观专利检索工具，支持图片、关键词等多方式检索全球外观专利，每日提供5次免费查询额度，能帮助卖家快速排查侵权风险，降低合规成本，保障跨境电商经营安全。

2.16.1 核心功能

多维度专利检索：支持图片、产品名、关键词、申请人、专利号全字段自定义检索，满足多样化查询需求。
AI视觉精准匹配：通过AI算法解析产品形状、结构等核心元素，生成相似度评分，降低漏判误判风险，直观展示侵权概率。
浏览器插件便捷查询：适配亚马逊商品页，无需跳转和手动传图，一键即可完成专利检索，贴合卖家工作流。
普惠免费查询服务：注册即享每日5次免费查询，免费额度自动刷新，无隐藏消费，超出额度后单次查询成本不足1元。

2.16.2 技术原理

基于AI视觉检索架构搭建，采用计算机视觉算法对上传商品图片进行特征提取，解析形状、结构、纹理等核心视觉元素；对接全球外观专利数据库，通过向量匹配技术与数据库中专利特征进行相似度计算，最终生成量化的相似度评分结果；同时采用浏览器插件技术实现跨页面数据交互，无需跳转即可完成专利检索请求的发起与结果展示。

2.16.3 应用场景

跨境电商选品阶段：卖家在选品时，上传目标商品图片或输入关键词，快速检索全球专利库，排查侵权风险，避免选品踩坑。
商品上架前合规审核：运营人员在商品上架亚马逊前，使用浏览器插件直接在商品页发起检索，快速确认外观专利合规性，缩短审核周期。
竞品分析场景：卖家针对竞品商品，通过专利检索了解其外观专利状态，为自身产品优化和差异化设计提供参考，规避侵权纠纷。

3. AI-Compass

AI-Compass 将为你和社区提供在 AI 技术海洋中航行的方向与指引。它并不是一个简单的资料收集仓库，而是一个经过系统化组织、可持续扩展的 AI 学习与实践生态。项目覆盖从基础认知到工程落地的完整链路，帮助用户少走弯路，更高效地完成从“知道”到“做出来”的跨越。

我们深度整合了大语言模型、多模态 AI、机器学习、深度学习、计算机视觉、自然语言处理、推荐系统、强化学习等核心技术领域，并持续补充 RAG、Agent、GraphRAG、MCP+A2A 等前沿应用架构。除了内容阅读之外，仓库也非常适合作为 AI 编程助手的本地知识库，方便你用 Codex、Claude Code 等工具直接对仓库做问答、检索、拆解与学习规划。