logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI 自动数据集打分+清洗,DataSanity – 大模型SFT数据集生成评测与清洗工具,这个开源神器让 大模型数据集制作效率翻倍

DataSanity V2.0是一款专注于网络安全领域的专业大模型SFT数据集生成、评测与清洗工具。它的诞生源于一个简单的理念:让AI数据处理变得更高效、更智能、更可靠。嗯。效率提升:多API负载均衡系统实现6.7倍性能提升质量保证:智能评估系统确保数据质量灵活便捷:支持多种格式和多种操作方式稳定可靠:完善的日志和错误处理机制成本优化:通过负载均衡降低API调用成本。

#人工智能#sqlite#机器学习 +1
高质量网络安全数据集完整指南:27万条高质量数据助力AI训练

本文介绍了一个包含27万+条高质量网络安全数据的开源数据集,详细解析其数据清洗流程、质量评估机制及实际应用价值。该数据集采用JSONL格式,经过五步严格清洗(多轮迭代、质量评分、阈值筛选、格式标准化和去重处理),仅保留评分≥4.5分的高质量数据。覆盖网络安全五大核心领域,适用于LLM微调、RAG系统等场景,具有准确性高、实战性强等特点。数据集已开源,采用MIT协议,适合AI研究者、网络安全工程师等

#web安全#人工智能#安全
到底了