logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

博客阅读:2024 Avoiding jailbreaks by discouraging their representation in activation space

本项目的目标是回答两个问题:“越狱行为能否在激活空间中被表征为一个线性方向?” 如果可以,那么 “这个方向能否被用来阻止越狱行为的成功?我们使用了均值差异技术,在激活空间中寻找一个代表越狱行为的方向。之后,通过激活添加和方向消融对模型进行干预。激活添加干预使得越狱攻击的成功率从60%降至0%,这表明可能存在一个代表越狱行为的方向,并且禁用它可能会使所有越狱行为都无法成功。然而,还需要进一步的研究来

文章图片
#人工智能
推理/思考模型(大模型)研究追踪

总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328GPT-5.1 自适应推理机制过去我的调研与实践结果:快速复现搭建【思考模型SmolLM3】: 小型、多语言、长上下文推理器具有思考模式模型部署:Qwen3、DeepSeek-R1-Distill、Phi-4、QWQ系列

#人工智能
大语言模型推荐系统攻击研究整合报告

LLM推荐系统安全研究揭示了文本攻击、投毒、偏见和隐私等多维威胁。尽管教育场景(如做题推荐)存在“题目文本不可改”的约束,但攻击者可转向元数据、用户行为等层面实施攻击。相应防御策略(如重写检测、LLM校准、偏见审计)可迁移至教育系统,提升精准学的安全性和公平性。当前工业界仍以传统推荐模型为主,LLM主要起辅助作用,但其安全风险仍需高度重视。未来研究应聚焦于轻量级防御、多模态安全及隐私保护,以构建更

#语言模型#人工智能#自然语言处理
快速复现搭建【思考模型SmolLM3】: 小型、多语言、长上下文推理器

SmolLM3 是一个 3B 参数的语言模型,旨在突破小型模型的界限。它支持双模式推理、6 种语言和长上下文。SmolLM3 是一个完全开放的模型,在 3B-4B 规模下提供了强大的性能。

文章图片
#人工智能
github项目:llm-guard

是一个开源项目,欢迎社区成员参与贡献,包括修复 bug、提出新功能建议、改进文档等。用户可以在 GitHub 上给项目加星支持。开发的一个全面的工具库,旨在增强大语言模型(LLMs)交互的安全性。,包括与 Amazon Bedrock、OpenAI API 等的集成。提供了多个示例脚本,展示如何在不同的场景中使用。,包括入门指南、API 文档、变更日志等。包含详细的文档,帮助用户了解如何使用。

#github
具有思考模式模型部署:Qwen3、DeepSeek-R1-Distill、Phi-4、QWQ系列

本文介绍了如何在Autodl平台上部署和运行多个开源大语言模型,包括Qwen3、DeepSeek-R1-Distill、Phi-4和QWQ。首先,通过Modelscope SDK下载模型,并提供了相应的Python脚本示例。接着,使用Transformers库加载模型和分词器,并设置了生成参数以生成文本。最后,通过一个简单的提示词“Give me a short introduction to l

文章图片
#人工智能
教育领域大模型生成题目安全研究报告

接收用户输入:知识点(如 “小学数学乘法交换律”)、学段(如 “小学 3 年级”)、题目类型(如 “计算题”)、难度等级(如 “中等”);加载教育约束规则:该学段课标范围、基础题底线清单、合规审查标准。

#安全#算法#机器学习
论文阅读:ICML 2023-DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature

随着大语言模型(LLMs)生成的文本越来越流畅,应用越来越广泛,识别这些文本的需求也愈发迫切。这篇论文的作者提出了一种名为DetectGPT的零样本机器生成文本检测方法,该方法主要基于以下发现:从大语言模型中采样生成的文本,往往位于模型对数概率函数的负曲率区域。

文章图片
#论文阅读
详解 JailbreakBench 中的 LLMvLLM:本地大模型加载与使用指南

LLMvLLM是 JailbreakBench 中连接本地大模型与越狱测试的关键组件,通过 vLLM 实现高效推理,同时支持灵活的参数配置。对于国内用户,通过本地模型部署和配置修改,可绕过网络限制,顺利参与 LLM 安全评估研究。结合 JailbreakBench 提供的数据集和评估工具,研究者可系统地测试模型的越狱鲁棒性,推动大语言模型安全领域的发展。

文章图片
#人工智能
复现 Llama-Guard-4-12B

总的来说,在输入层面Llama-Guard-4-12B测试结果较好。AutoDAN的Prompt(AdvBench)这是安全的(我们人工判断的),模型判断正确。这是安全的(我们人工判断的),模型判断正确。GPU型号 vGPU-32GB * 1卡。确保安装了modelscope。数据盘 免费50GB SSD。这是有害的,模型判断错误。这是有害的,模型判断正确。这是有害的,模型判断正确。这是安全的,模

文章图片
    共 188 条
  • 1
  • 2
  • 3
  • 19
  • 请选择