logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【大模型评测系列】我用 10 条真实任务对比了 GLM-5.1(百炼) vs GLM-5.2(百炼) vs DeepSeek-V4-Pro(官方)

本次评测对比了GLM-5.1、GLM-5.2和DeepSeek-V4-Pro三个大模型在10项真实测试任务中的表现。结果显示:三个模型均实现100%任务通过率,质量接近;但DeepSeek-V4-Pro在效率上优势显著,平均耗时25.2秒(比GLM-5.1快59%),平均Token消耗2092(节省38.7%)。评测涵盖用例生成、脚本编写、性能分析等测试工程全链路任务,发现国产模型已具备实用能力,

文章图片
#人工智能#服务器#python +2
【大模型评测系列】我用 10 条真实任务对比了 GLM-5.1(百炼) vs GLM-5.2(百炼) vs DeepSeek-V4-Pro(官方)

本次评测对比了GLM-5.1、GLM-5.2和DeepSeek-V4-Pro三个大模型在10项真实测试任务中的表现。结果显示:三个模型均实现100%任务通过率,质量接近;但DeepSeek-V4-Pro在效率上优势显著,平均耗时25.2秒(比GLM-5.1快59%),平均Token消耗2092(节省38.7%)。评测涵盖用例生成、脚本编写、性能分析等测试工程全链路任务,发现国产模型已具备实用能力,

文章图片
#人工智能#服务器#python +2
【大模型评测系列】我用 10 条真实任务对比了 GLM-5.1(百炼) vs GLM-5.2(百炼) vs DeepSeek-V4-Pro(官方)

本次评测对比了GLM-5.1、GLM-5.2和DeepSeek-V4-Pro三个大模型在10项真实测试任务中的表现。结果显示:三个模型均实现100%任务通过率,质量接近;但DeepSeek-V4-Pro在效率上优势显著,平均耗时25.2秒(比GLM-5.1快59%),平均Token消耗2092(节省38.7%)。评测涵盖用例生成、脚本编写、性能分析等测试工程全链路任务,发现国产模型已具备实用能力,

文章图片
#人工智能#服务器#python +2
【大模型评测】我用 10 条真实任务对比了 GLM-5.1(百炼) vs GLM-5.2(百炼) vs DeepSeek-V4-Pro(官方)

文章摘要: 测试员周周对GLM-5.1、GLM-5.2和DeepSeek-V4-Pro三款大模型进行了真实场景评测,覆盖10项测试工程任务。结果显示: 通过率:三模型均达100%,输出质量接近; 效率:DeepSeek-V4-Pro显著领先,平均耗时25.2秒(比GLM-5.1快59%),Token消耗减少38.7%; 成本:DeepSeek估算成本最低(0.84元/万Token)。 核心结论:国

文章图片
#人工智能#自动化#功能测试 +4
【大模型评测】我用 10 条真实任务对比了 GLM-5.1(百炼) vs GLM-5.2(百炼) vs DeepSeek-V4-Pro(官方)

文章摘要: 测试员周周对GLM-5.1、GLM-5.2和DeepSeek-V4-Pro三款大模型进行了真实场景评测,覆盖10项测试工程任务。结果显示: 通过率:三模型均达100%,输出质量接近; 效率:DeepSeek-V4-Pro显著领先,平均耗时25.2秒(比GLM-5.1快59%),Token消耗减少38.7%; 成本:DeepSeek估算成本最低(0.84元/万Token)。 核心结论:国

文章图片
#人工智能#自动化#功能测试 +4
【大模型评测】我用 10 条真实任务对比了 GLM-5.1(百炼) vs GLM-5.2(百炼) vs DeepSeek-V4-Pro(官方)

文章摘要: 测试员周周对GLM-5.1、GLM-5.2和DeepSeek-V4-Pro三款大模型进行了真实场景评测,覆盖10项测试工程任务。结果显示: 通过率:三模型均达100%,输出质量接近; 效率:DeepSeek-V4-Pro显著领先,平均耗时25.2秒(比GLM-5.1快59%),Token消耗减少38.7%; 成本:DeepSeek估算成本最低(0.84元/万Token)。 核心结论:国

文章图片
#人工智能#自动化#功能测试 +4
【AI测试智能体】拒绝玄学调参!我用 30 次真实 LLM 调用,拆解了 Agent 性能崩盘的 3 个维度

本文探讨了智能体性能测试的关键维度,通过真实电商场景案例揭示了仅功能测试的不足。文章提出性能测试三大核心指标:1)延迟(需关注P50/P90/P99分位数),2)Token预算(直接影响成本,需建立消耗模型),3)并发能力(高负载下的稳定性)。测试数据显示,典型任务如销售报告生成的平均延迟达45秒,Token消耗约8000(成本0.5元/次),并发性能随请求量显著下降。作者提供了完整测试方案(含P

文章图片
#算法#人工智能#bug +4
【AI测试智能体10】实测打脸:5轮对话后,顶级大模型qwen-plus秒变“失忆症患者”

文章摘要:本文探讨了智能体在多轮对话测试中的表现衰减现象及其评估方法。研究发现,智能体的记忆能力随对话轮数增加呈阶梯式衰减:3轮内准确率100%,5轮降至80%,8轮45%,12轮仅20%。文章提出五维评估框架:信息记忆(半衰期模型)、指代消解(阶跃式退化)、话题切换、冲突处理和语义漂移,并开发了支持模糊匹配的MemoryRecallScore评分算法(0-1分制)。测试数据显示,在固定窗口策略下

文章图片
#java#数据库#前端 +4
【免费送】自学软件测试最大的坑:没有业务系统!

《真实业务场景下的测试实战:电商进销存系统全链路训练方案》 摘要: 针对测试人员自学过程中缺乏真实业务场景的痛点,作者开发了一套企业级电商进销存财务一体化系统。该系统涵盖商品管理、秒杀系统、采购销售、库存财务等完整业务链路,采用前后端分离架构(Vue3+Flask+MySQL+Redis),通过Docker一键部署。每个模块对应核心测试技能训练:商品CRUD练接口测试、秒杀系统练性能测试(含6种防

文章图片
#人工智能#python#单元测试 +3
【AI测试智能体】智能体不做这两件事,上线就是事故:幻觉检测与注入防御实战

本文摘要: 针对大语言模型(LLM)在电商场景中的幻觉和安全隐患,提出系统化测试方案。知识测试涵盖事实性(准确率)、推理(正确率)和幻觉检测(虚构问题编造率),实测显示未优化的模型幻觉率高达70%。安全测试聚焦四类攻击:有害内容、隐私泄露、Prompt注入和Jailbreak,关键发现包括:规则过滤对已知攻击拦截率100%,但需结合LLM检测应对变体攻击。交付物包含标准测试集(如30个事实问题、2

文章图片
#python#fastapi#单元测试 +4
    共 93 条
  • 1
  • 2
  • 3
  • 10
  • 请选择