
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
智谱AI发布轻量级OCR模型GLM-OCR,参数仅0.9B却实现SOTA性能。该模型在OmniDocBench V1.5评测中获94.6分,擅长处理手写体、复杂表格等场景,PDF处理速度达1.86页/秒,API成本低至0.2元/百万Tokens。采用"编码器-解码器"架构,支持图片/PDF输入,输出结构化文本/JSON/HTML。相比大模型更轻量专业,比传统OCR功能更全面。已

近年来,将大型语言模型扩展到智能体系统的研究兴趣日益浓厚。尽管智能体的有效性不断提高, 但对于实际部署至关重要的 效率却常常被忽视。因此,本文从智能体的三个核心组成部分——记忆、工具学习和规划——出发,研究了效率问题,并考虑了延迟、令牌、步骤等成本。

当机械臂在68个视角下审视一个普通的杯子,镜面反射、几何对称与姿态变化交织成一幅工业质检的现实图景——RAD基准告诉我们,最前沿的3D重建与视觉大模型,竟不如成熟的2D特征匹配方法来得稳定可靠。

本文为你深度盘点 2026 年最值得关注的 Claude Agent Skills 聚合市场与开源项目,带你从“只会聊天”进阶到“自动化工作流”。

这是一篇较为全面地介绍代理制度并带来新见解的论文。

在整个圈内媒体都在喊「智能体元年」的时代,Andrej Karpathy 的话像是给业内泼了一盆冷水。近日Andrej Karpathy 上了 Dwarkesh 的播客,信息密度极高。他的核心结论可以用一句话概括:Agent 的发展还需要十年。

2025年第一季度全球AI发展呈现六大趋势:1)前沿模型竞争白热化,中美企业领跑推理与非推理领域;2)MoE架构与硬件创新推动效率革命,推理成本显著下降;3)中国在开源和非推理模型领域快速崛起;4)AI代理实现端到端自主任务处理;5)多模态技术全面突破,视频生成形成中美"双寡头"格局;6)成本下降与算力需求激增的矛盾日益突出。未来,混合部署策略、地缘技术竞赛和伦理商业化平衡将成

OpenAI在2025年10月6日的开发者大会上宣布了多项重大更新,旨在将ChatGPT从聊天机器人升级为AI应用平台。核心发布包括:ChatGPT Apps允许用户在对话界面直接使用第三方应用;AgentKit提供构建AI智能体的完整工具集;以及多个新模型API(如GPT-5 Pro和Sora 2)提升算力与功能。这些变革标志着AI正从工具向平台演进,将重塑应用生态和用户交互方式,为开发者创造新

最近StepFun团队发布了最先进的图像编辑模型Step1X-Edit,其性能可与 GPT-4o 和 Gemini2 Flash 等闭源模型相媲美。更具体地说,他们采用多模态 LLM 来处理参考图像和用户的编辑指令。提取潜在嵌入并将其与扩散图像解码器集成以获取目标图像。在 GEdit-Bench 上的实验结果表明,Step1X-Edit 的性能大幅超越现有的开源基线,并接近领先的专有模型的性能,从

Andrej Karpathy在2025年LLM回顾中指出六大范式变革:RLVR让模型学会真正推理;智能呈“锯齿状”,如鬼魂般非生物式;Cursor开启应用新层级;Claude Code实现本地AI代理;Vibe Coding大众化编程;多模态模型预示视觉化LLM GUI。2025年LLM既更聪明也更笨拙,潜力仅挖10%,未来广阔,系好安全带。








