
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
该研究揭示,DeepSeek-R1、QwQ-32B等推理模型的卓越推理能力并非仅源于更长的思维链,核心在于其隐含模拟的**“思想社群”(society of thought)** ——通过多视角互动(含问答、视角转换、观点冲突与调和)、多样化的人格与专业领域特征,以及对话式行为,直接或间接促进验证、回溯等认知策略,提升推理准确性;强化学习实验表明,模型在仅以准确性为奖励时会自发形成对话行为,且基于

本文聚焦这一生成式AI领域的新兴威胁,指出其将LLM越狱攻击商品化,形成了包含开发者、平台运营者、用户和目标LLM提供商的地下商业生态,通过角色扮演、混淆编码、多轮操纵等多样化攻击手段实现了65-78%的成功率,大幅降低了AI攻击的技术门槛;研究系统梳理了JaaS的平台架构、商业模式、攻击方法体系,分析了其在恶意代码生成、虚假信息传播等场景的实际危害,揭示了当前LLM安全防护机制的显著不足,最终提

该研究聚焦AI红队测试中攻击成功率(ASR)比较的有效性问题,指出当前基于ASR得出的系统安全性或攻击方法效能结论常因“苹果与橘子”式对比或低有效性测量缺乏支撑;通过社会科学测量理论和推论统计,提出ASR有意义比较需满足概念一致性(可比较的总体参数)和测量有效性(ASR能准确反映参数)两大条件;以越狱攻击为案例,分析了聚合方式差异、有害提示定义不当、评判者误差等导致比较失效的常见问题,并给出明确测

本项目的目标是回答两个问题:“越狱行为能否在激活空间中被表征为一个线性方向?” 如果可以,那么 “这个方向能否被用来阻止越狱行为的成功?我们使用了均值差异技术,在激活空间中寻找一个代表越狱行为的方向。之后,通过激活添加和方向消融对模型进行干预。激活添加干预使得越狱攻击的成功率从60%降至0%,这表明可能存在一个代表越狱行为的方向,并且禁用它可能会使所有越狱行为都无法成功。然而,还需要进一步的研究来

总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328GPT-5.1 自适应推理机制过去我的调研与实践结果:快速复现搭建【思考模型SmolLM3】: 小型、多语言、长上下文推理器具有思考模式模型部署:Qwen3、DeepSeek-R1-Distill、Phi-4、QWQ系列
LLM推荐系统安全研究揭示了文本攻击、投毒、偏见和隐私等多维威胁。尽管教育场景(如做题推荐)存在“题目文本不可改”的约束,但攻击者可转向元数据、用户行为等层面实施攻击。相应防御策略(如重写检测、LLM校准、偏见审计)可迁移至教育系统,提升精准学的安全性和公平性。当前工业界仍以传统推荐模型为主,LLM主要起辅助作用,但其安全风险仍需高度重视。未来研究应聚焦于轻量级防御、多模态安全及隐私保护,以构建更
SmolLM3 是一个 3B 参数的语言模型,旨在突破小型模型的界限。它支持双模式推理、6 种语言和长上下文。SmolLM3 是一个完全开放的模型,在 3B-4B 规模下提供了强大的性能。

是一个开源项目,欢迎社区成员参与贡献,包括修复 bug、提出新功能建议、改进文档等。用户可以在 GitHub 上给项目加星支持。开发的一个全面的工具库,旨在增强大语言模型(LLMs)交互的安全性。,包括与 Amazon Bedrock、OpenAI API 等的集成。提供了多个示例脚本,展示如何在不同的场景中使用。,包括入门指南、API 文档、变更日志等。包含详细的文档,帮助用户了解如何使用。
本文介绍了如何在Autodl平台上部署和运行多个开源大语言模型,包括Qwen3、DeepSeek-R1-Distill、Phi-4和QWQ。首先,通过Modelscope SDK下载模型,并提供了相应的Python脚本示例。接着,使用Transformers库加载模型和分词器,并设置了生成参数以生成文本。最后,通过一个简单的提示词“Give me a short introduction to l

接收用户输入:知识点(如 “小学数学乘法交换律”)、学段(如 “小学 3 年级”)、题目类型(如 “计算题”)、难度等级(如 “中等”);加载教育约束规则:该学段课标范围、基础题底线清单、合规审查标准。







