
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
随着大语言模型(LLMs)生成的文本越来越流畅,应用越来越广泛,识别这些文本的需求也愈发迫切。这篇论文的作者提出了一种名为DetectGPT的零样本机器生成文本检测方法,该方法主要基于以下发现:从大语言模型中采样生成的文本,往往位于模型对数概率函数的负曲率区域。

LLMvLLM是 JailbreakBench 中连接本地大模型与越狱测试的关键组件,通过 vLLM 实现高效推理,同时支持灵活的参数配置。对于国内用户,通过本地模型部署和配置修改,可绕过网络限制,顺利参与 LLM 安全评估研究。结合 JailbreakBench 提供的数据集和评估工具,研究者可系统地测试模型的越狱鲁棒性,推动大语言模型安全领域的发展。

总的来说,在输入层面Llama-Guard-4-12B测试结果较好。AutoDAN的Prompt(AdvBench)这是安全的(我们人工判断的),模型判断正确。这是安全的(我们人工判断的),模型判断正确。GPU型号 vGPU-32GB * 1卡。确保安装了modelscope。数据盘 免费50GB SSD。这是有害的,模型判断错误。这是有害的,模型判断正确。这是有害的,模型判断正确。这是安全的,模

生成管道中加“自动验证器”(QA 模型交叉验证)、内容过滤器(toxicity / safety classifier)、可控生成(约束 prompt / planning),以及对抗训练来提高鲁棒性。可用指标:错误率(事实/逻辑)、不可答率(unanswerable)、有害性评分(自动 + 人工标签)、偏见强度(差异化统计)、选项/答案位置偏置、可解释性度量等。构建偏见题模板(性别/种族/阶级/
这篇论文《A Survey of AI-generated Text Forensic Systems: Detection, Attribution, and Characterization》是关于AI生成文本取证系统的综述。随着大语言模型(LLMs)发展,其生成文本存在被滥用风险,该综述对相关取证系统进行梳理,涵盖检测、溯源、特征描述,探讨资源、挑战与未来方向,助力构建可靠数字信息生态。

优点:会公开思考过程、能拆解复杂问题、比普通模型擅长推理(比如数学题、代码);缺点:思考会“钻牛角尖”、不会控制思考长度、安全风险高、对不同语言/文化态度不一、不会模拟现实场景;未来要改啥:让它别纠结无用细节、能控制思考时长、提升安全性、减少文化/语言偏见、增强对现实场景的理解。简单说,这份研究就像给DeepSeek-R1做了一次“全面体检”,把它的“思考习惯”摸得透透的,也为后续优化这类“会思考

本文介绍了利用影刀RPA工具对闭源大语言模型进行自动化测试的方法。通过模拟人工操作流程,实现Excel测试数据的自动输入、网页交互和结果记录。主要流程包括:打开含测试用例的Excel文件,循环读取每行内容;自动访问MathGPT网页,将测试文本输入对话框并提交;等待模型响应后复制回答内容;将结果回写到Excel对应位置,并开启新会话确保测试独立性。该方法有效解决了人工测试效率低、易出错的问题,完整

论文阅读:2024 arxiv AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation。

该文档是一篇发表于IJCAI-25的研究论文,核心聚焦于视频-语言模型(VLMs)中的幻觉问题,提出了多层多模态对齐(MMA)框架及两阶段训练策略,以提升模型语义一致性并减少幻觉。该研究通过语义对齐与两阶段训练,从根源缓解了VLMs的幻觉问题,同时提升了长视频理解与视频问答的准确性,为视频分析、多模态学习等领域的实际应用提供了更可靠的技术支撑。通过文本语义监督与多层对齐,强化视觉与文本模态的语义一

该研究聚焦LLM辅助课程开发的界面设计挑战,提出两种基于直接操作(DM)原则的新型UI(UI Predefined和UI Open),以解决传统文本界面依赖复杂提示工程、认知负荷高的问题。通过20名不同教育背景参与者的对照实验,将其与标准ChatGPT界面(通过open-webui模拟)在可用性(SUS)和认知负荷(NASA RTLX)方面对比,结果显示UI Predefined显著优于其他两者(








