logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【MLLM】Agent-GUI之MobileAgent模型

提出了GUI-Owl-1.5,一个多平台的本地GUI代理模型,支持桌面、移动设备、浏览器等多种设备的自动化操作。通过Hybrid Data Flywheel、统一的代理能力增强和跨设备环境强化学习扩展,GUI-Owl-1.5在20多个GUI基准测试中取得了最先进的性能。开源发布GUI-Owl-1.5将推动GUI代理在多平台设备自动化中的应用。- 在 browser 这类更长程、更需要规划的任务上,

文章图片
【LLM】Vibe Coding时代下的代码思维

从 写代码的人,升级成 能定义问题、拆解系统、约束 AI、验收结果的人。既懂业务和系统,又能高效驾驭 AI,把模糊需求变成可靠交付。软件工程精力从传统的样板代码编写、基础CRUD/路由开发等低价值重复性工作,转向架构设计、隔离审计、策略规范、验证与监控等高价值的架构相关工作。从代码实现者,升级成系统设计者,练习四种能力:分层、接口、边界、变化点抽象。会写模块、设计模块关系、设计可演进的系统。文章目

文章图片
【LLM】LitBench:创意文本评估Benchmark

创意写作虽然主观,但仍然可以通过高质量的人类偏好数据训练出可靠的 reward model;而且这种专门训练的 reward model,比直接拿强闭源 LLM 当 judge 更准。做了一个专门评测创意写作 judge 的 benchmark:LitBench。数据来自 Reddit 的 r/WritingPrompts,本质上利用社区 upvote 作为“人类偏好”的弱监督信号。他们构建了:2

文章图片
【LLM】Openclaw测试评估PinchBench

评估 LLM 作为 OpenClaw 编码代理的基准测试,目标是通过在不同模型上运行统一的真实任务,从成功率、速度、成本三个维度量化模型表现,帮助开发者为 OpenClaw 选择适配的 LLM 模型。基于 Next.js、React、Tailwind 搭建的排行榜网页在:https://github.com/pinchbench/leaderboard,基准测试运行器、任务定义及评分逻辑地址在:h

文章图片
【Agent】skill介绍和使用教程

Skill 是 Anthropic 推出的可复用工作流封装机制。它解决了 AI 使用中的核心痛点:避免每次都“重新教”AI。痛点:每次使用 Claude 处理周报、数据分析或复杂流程时,都需要重新描述格式、风格和步骤,效率低下且容易出错。解决方案:Skill 将你的工作方法、团队规范和领域知识打包成一个文件夹。Claude 学会一次后,即可按标准自动执行,实现 “Teach Claude once

文章图片
【LLM】OpenClaw龙虾指北

OpenClaw = 大模型大脑 + 能动手的手脚 + 本地隐私 + 开源免费,帮你把电脑上的重复活儿全自动化。文章目录note一、OpenClaw二、安装和部署1、OpenClaw 安装部署指南一、环境要求二、获取项目三、安装依赖四、构建项目五、运行安装向导六、设备配对七、启动使用八、常用命令速查九、目录结构十、注意事项三、相关命令🚀 启动 Gateway🛑 关闭 Gateway📋 常用命

文章图片
Python的logging日志工具 & 深度学习项目yaml配置文件

如果某一个日志对象打日志时,它的父对象会同时收到日志,所以有些使用者发现创建了一个logger对象时会打两遍日志,就是因为他创建的logger打了一遍日志,同时root对象也打了一遍日志。会创建两个logger对象,一个是abc父对象,一个是xyz子对象,同时abc没有父对象,所以它的父对象是root。得到的对象都是一样的,不需要重新配置,可以直接使用。定义的该logger的子logger,都可以

文章图片
#python
【LLM】创意类文本评测维度分析(文学创作、剧情编写、营销文案)

创意任务评测不能只看一个总分,必须分成 3 层:硬性底线层:有没有事实错误、逻辑断裂、明显病句、跑题、违规任务能力层:有没有完成该类任务最核心的目标审美风格层:有没有高级感、感染力、记忆点、文学性,是否有“机器味”文章目录note一、统一评测框架1)评分结构2)评分方式A. 维度打分(绝对分)B. 两两比较(Pairwise)二、文学创作评测体系文学创作评测表(100分)文学创作的扣分项 / 一票

文章图片
【李宏毅深度学习】(task5)网络设计技巧4—Batch Normalization

学习心得(1)当error surface很崎岖时(比较难train),可以把山削平——Batch Normalization(2)文章目录学习心得1.改变LandscapeFeature Normalization2.Considering Deep Learning3.Testing4.对比5.Internal Covariate Shift?6.更多参考1.改变Landscape我们一开始就

文章图片
【LLM】Labor market impacts of AI

Anthropic 发布 AI 劳动力市场影响报告,提出“observed exposure”(观测暴露度)新指标。该指标结合 LLM 理论能力与 Claude 真实使用数据,重点评估任务自动化程度。使用Anthropic经济指数中的实际使用数据,计算每个职业的任务在专业设置中看到的自动化使用情况,Observed Exposure=∑(Task Coverage×Time Fraction)∑T

文章图片
    共 393 条
  • 1
  • 2
  • 3
  • 40
  • 请选择