logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

linux 大量的TIME_WAIT解决办法

发现存在大量TIME_WAIT状态的连接tcp        0      0 127.0.0.1:3306              127.0.0.1:41378             TIME_WAITtcp        0      0 127.0.0.1:3306              127.0.0.1:41379             TIME_WAITtcp

大模型测评工具全面盘点:谁才是你的理想“打分员”?

大模型测评工具选型指南 当前大模型评估面临公平性、准确性与效率的挑战,主流测评工具各有侧重: 综合评估:商汤OpenCompass支持分布式多模型对比,适合企业级评测; 性能优化:LMDeploy专注推理延迟/吞吐测试; 代码能力:EvalPlus提供代码生成全流程验证; 自动化评分:清华PrometheusEval利用LLM进行问答打分; 工程部署:EvalScope擅长API并发测试。 选型建

当测试工程师遇上大模型:我在测AI“智商”的那些坑与心得

摘要: 大模型评测从传统功能测试转向评估"概率性正确",需综合考察知识、推理、编程等能力。主流基准如MMLU(跨学科理解)、HumanEval(代码生成)、GSM8K(数学推理)通过量化指标(准确率、鲁棒性等)衡量模型表现,但面临数据污染、文化偏差等挑战。未来AGI评估将聚焦跨模态、长期推理、伦理对齐等维度,强调动态更新与人机协作。测试工程师需平衡自动化与人工审核,警惕&quo

#人工智能
MoneyPrinterTurbo 全流程笔记

负责把用户输入的主题 /关键词 /上下文,构造 prompt / messages,调用 LLM(如 Moonshot / OpenAI /DeepSeek 等)生成视频脚本、文案、字幕草稿、画面提示等。负责根据文案 /关键词 /画面提示去素材库(Pexels / Pixabay)拉图 /视频 /图片 /片段;根据素材 +字幕 +音频 +背景音乐进行拼接 /剪辑 /转场 /编码 /输出。在 con

自动化盯盘神器:Python + ADB + OpenCV 实现股票信号识别与钉钉通知

需求:由于没时间盯盘,想写一个脚本能隔一段时间监控是否出了gs然后钉钉通知消息要实现这个功能,我们需要编写一个Python脚本,结合使用来控制手机、来进行图像识别,以及库来发送钉钉消息。这个任务比较复杂,需要一些前置准备工作。我会一步步详细地指导你完成。

大模型对比测试系统详解:基于FastChat的全面评估方案

FastChat是一个开源的LLM训练、服务和评估平台,由LMSYS组织开发维护。该系统不仅提供了完整的模型训练和部署功能,更重要的是构建了一套全面的模型评估体系。多模型支持:支持包括Vicuna、Llama、GPT、Claude等主流大语言模型分布式服务:提供Web UI和OpenAI兼容的RESTful API评估框架:集成了MT-Bench、Chatbot Arena等多种评估方法开源透明:

#microsoft#人工智能#学习
那些A/B测试教我们的App Store优化

苹果的App Store和Google的应用商店都分别有超过150万个app,海量的应用背后是海量移动用户的支持。根据com Score的“美国移动应用报告”,美国用户平均每个月最多下载3个新app。显而易见App Store中的竞争有多么激烈,独立开发者或许早已注意到,想要脱颖而出,仅仅创造卓越的产品是远远不够的。在App Store中的起起伏伏如

三星 Galaxy 手机如何投屏到 Mac?最全教程来了!

Scrcpy 是一款开源、免费的 Android 投屏工具,可以将手机画面实时同步到电脑,支持鼠标操作、键盘输入、1080p 高质量投屏,延迟低,非常适合开发者和进阶用户。命令功能scrcpy默认投屏降分辨率和码率(提高流畅度)同时录制屏幕投屏时关闭手机屏幕投屏窗口置顶显示场景推荐方案开发调试✅ Scrcpy(USB 连接)无线远程协作✅ Scrcpy 无线模式零技术门槛用户教学演示✅ Scrcp

#macos
大模型命名标识全解析:系统梳理与深度解读

LLM 的命名标识不仅用于区分模型版本,更透露了模型设计目标、技术特性与适用场景。从基础的‑Base、指令微调的‑Instruct,到对话优化的‑Chat、知识蒸馏的‑Distill,再到专注数学、代码的‑Math‑Coder,以及面向图像、视频、音频的‑VL‑Video‑Audio,每个后缀都代表了特定的设计理念。量化、混合专家、强化学习等技术标识,则揭示模型在效率和能力上的优化策略。

#人工智能#自然语言处理
大模型测评工具全面盘点:谁才是你的理想“打分员”?

大模型测评工具选型指南 当前大模型评估面临公平性、准确性与效率的挑战,主流测评工具各有侧重: 综合评估:商汤OpenCompass支持分布式多模型对比,适合企业级评测; 性能优化:LMDeploy专注推理延迟/吞吐测试; 代码能力:EvalPlus提供代码生成全流程验证; 自动化评分:清华PrometheusEval利用LLM进行问答打分; 工程部署:EvalScope擅长API并发测试。 选型建

    共 33 条
  • 1
  • 2
  • 3
  • 4
  • 请选择