logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

几周挖出上万高危漏洞!Claude Mythos玻璃翼项目成绩震撼安全圈

一个月前,Anthropic联合多家科技巨头启动了Project Glasswing(玻璃翼项目):Anthropic神话模型发布,但不让你用。初衷是要在越发强大的人工智能模型被恶意利用前,提前把全球最核心的软件加固一遍。现在第一份初期成绩单已经交出。尚未公开发布的Claude Mythos Preview模型,在短短几周内,就在全球最重要的软件中找出了超1万个高危或严重漏洞。人工智能彻底颠覆了网

#安全
顶级模型职场任务完成率不到4%,AI离抢饭碗还差得远!

AI助手被媒体吹得无所不能。大家开始憧憬,让这些Agent走进办公室,登录各种SaaS(软件即服务)系统,帮我们处理报销、管理库存或者分析财务报表。然而,最强的AI智能体在面对真实的职业工作流时,任务完成率竟然不到4%。最近UniPat AI、北京大学等机构发布了SaaS-Bench基准。这项研究把市面上最顶尖的AI模型都拉到了真实的办公软件环境里。研究人员给它们准备了23个真实的SaaS系统,涵

#人工智能
英伟达开源深度研究引擎:企业级数据不出门,研究自动做

Harness擅长管理会话、调用工具、响应指令,但在处理多文档信息聚合、长周期分析时则力不从心。面对海量企业级数据,既要保证来源可追溯,又要兼顾合规安全。NVIDIA 新推出的 AI-Q Blueprint(AI-Q 蓝图),巧妙化解了当前困境。系统将繁复的深度研究流水线打包成便携的 Agent Skill,只需一行指令,就能给框架加装独立的分析引擎。代理框架可以直接向 AI-Q 服务器派发任务并

#开源#人工智能
英伟达开源深度研究引擎:企业级数据不出门,研究自动做

Harness擅长管理会话、调用工具、响应指令,但在处理多文档信息聚合、长周期分析时则力不从心。面对海量企业级数据,既要保证来源可追溯,又要兼顾合规安全。NVIDIA 新推出的 AI-Q Blueprint(AI-Q 蓝图),巧妙化解了当前困境。系统将繁复的深度研究流水线打包成便携的 Agent Skill,只需一行指令,就能给框架加装独立的分析引擎。代理框架可以直接向 AI-Q 服务器派发任务并

#开源#人工智能
美团之后,京东也开始自研大模型了

京东发布了JoyAI-LLM Flash模型。它激活参数小且推理速度快。只用不到30亿的激活参数,在多项测试里跑赢了同级别的许多老大哥。这款模型通过混合专家架构、20万亿Token的预训练、首创的FiberPO强化学习算法以及多Token预测等技术,把模型的算力成本和推理效率做到了极致。它是怎样在保持高性能的同时做到省时省力的?

#人工智能#深度学习#机器学习
智谱开启狂飙模式!7倍提速,全球最快,旗舰模型即问即答

大模型推理速度天花板,又被捅破了。5月22日,智谱上线GLM-5.1高速版API,接口名GLM-5.1-highspeed,输出速度跑到400 tokens/s,刷新全球大模型API速度纪录,比原版提速约7倍。比谷歌刚发的,主打速度与性能的旗舰模型Gemini 3.5 Flash还快一倍。一个754B参数的旗舰模型,跑出了即问即答的速度,代码生成效率提升近10倍,过去因延迟卡住的产品形态,开始变得

#人工智能
国产新模王Qwen3.7-Max,海外开发者已经沸腾了

Qwen3.7-Max,自主跑 35 小时,连续 1158 次工具调用,完成内核优化,不掉线。正如 X 用户 @FakeMaidenMaker 所说:“Qwen3.7-Max 这一波真正的看点不是它在 benchmark 上又超了谁,是它把"长任务自主执行"这件事推到了产品级——35 小时不间断、1158 次工具调用、从没见过的硬件上做内核优化,这个 case 比任何一项分数都更接近"agent

#人工智能
这个Skill太香了!Karpathy说的AI写代码的毛病,直接治好

GitHub 上一个叫 andrej-karpathy-skills 的开源 Skill,深受开发者喜爱。它是受 Karpathy 在 X 上发表的一篇长推启发实现的,可以说是 Karpathy 最近两年 Vibe Coding 的经验结晶。Karpathy 说他现在80%的代码是靠指挥 LLM 写的。几周之内把工作方式翻了个底朝天。他精准指出了 AI 写代码的几大致命毛病,这个开源 Skill

#人工智能
AI能干坏事了吗?四巨头参与的AI前沿风险报告告诉你

模型评估和威胁研究机构METR发布了一篇320页的重磅报告。四家顶级AI公司把自己的"家底"交给了METR,包括最强内部模型、原始思维链、非公开能力数据。这是AI行业头一回,Anthropic、Google、Meta、OpenAI四家参与,过程比以往任何外部评估都更深入,METR还拥有最终的编辑独立性。报告结论是:AI Agent已经能偷偷启动rogue deployment(失控部署)了,只是还

#人工智能
榨干Codex!OpenAI工程师亲授Codex真正用法

你可能把 Codex 当编程助手用,改改代码,跑跑测试。但它的能力远不止于此。OpenAI 的客户支持工程师 Jason(@jxnlco)告诉你,Codex 其实是一套完整的电脑工作系统,从语音输入到自动化,从浏览器操控到共享记忆,全套组合拳打下来,你不在电脑前,它照样替你干活。大家刚接触 Agent 常常只拿它当敲代码的工具人。帮代码库挑挑毛病,比对几组差异,跑2轮测试用例,顺手提 Pull R

#人工智能
    共 653 条
  • 1
  • 2
  • 3
  • 66
  • 请选择