logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型安全之三:数据污染

数据污染是大模型训练中隐蔽且破坏力强的安全威胁,指在训练数据中混入错误或恶意内容,导致模型学习有害行为。其危害性在于大模型数据体量庞大、来源复杂,且预训练阶段污染可能难以消除。污染可分为无意(爬虫噪声、标注错误)和有意(数据集后门、供应链攻击)两类。典型案例包括谷歌Gmail分类器投毒、文本模型"避雷针"后门攻击以及HuggingFace恶意模型事件。防御需建立多层体系:数据层

文章图片
#安全
大模型安全之二:Prompt注入

随着大语言模型在各类应用中的广泛集成,Prompt注入攻击已成为AI安全领域的新兴威胁。本文从安全从业者视角深入剖析Prompt注入的攻击机理,分析实际案例,评估潜在危害,并构建多层防御体系。

文章图片
#安全
大模型安全之二:Prompt注入

随着大语言模型在各类应用中的广泛集成,Prompt注入攻击已成为AI安全领域的新兴威胁。本文从安全从业者视角深入剖析Prompt注入的攻击机理,分析实际案例,评估潜在危害,并构建多层防御体系。

文章图片
#安全
人工智能基础知识笔记三十五:几个LLM的Leaderboard的网站

本文主要介绍了LLM的6个Leaderboard,可以通过这些Leaderboard全访问了解每个模型的优势和劣势,以及性价比。可以在选择模型时,根据使用大模型的目的,有针对性地提前了解每个模型的特点。

文章图片
#人工智能
人工智能基础知识笔记二十七:构建一个可以搜索本地文件的Agent

本文介绍了一个基于自然语言处理的智能文件搜索Agent系统。该系统通过LLM模型解析用户输入的查询条件(如文件名、类型、修改日期等),在本地文件系统中进行智能搜索。文章详细阐述了核心功能实现,包括查询解析、文件匹配算法和系统架构,并提供了Web交互界面实现方案(基于Streamlit)。系统支持高级搜索功能,如日期范围、文件大小筛选等,同时具备语音输入和搜索历史记录功能。作者分享了开发过程中使用A

文章图片
人工智能基础知识笔记十三:数据清理

本文系统介绍了大型语言模型(LLM)训练前的数据清理方法。主要内容包括:1)文本规范化(大小写处理、特殊字符去除、缩写恢复、停用词过滤);2)噪声数据去除(HTML标签、URL、重复内容等);3)语言检测与过滤;4)分词与标记化技术;5)数据去重、长度过滤、毒性内容检测等关键技术。文章还提供了完整的Python代码示例,涵盖NLTK、BeautifulSoup、transformers等工具库的使

#人工智能
人工智能基础知识笔记二十六:常用的LLM的网站

开源AI工具与资源汇总:包含多个LLM排行榜(HuggingFace、ChatBot Arena)、开发工具(Ollama、LMStudio)、RAG技术指南(AWS、NVIDIA相关文档)、AI代理平台(Botpress、Voyager)以及文本转语音方案(ChatTTS)。提供Colab实践教程(Llama解析、微调)、重要论文(RLHF、多模态研究)和安全研究报告。涵盖从模型部署(Anyth

文章图片
#人工智能
人工智能基础知识笔记十八:Prompt Engineering

摘要:提示词工程(Prompt Engineering)是设计优化输入提示以引导AI生成更精准输出的方法。由于AI模型的局限性及语言歧义性,清晰的提示词能激发模型潜力,提高回答质量。核心要素包括:角色扮演、明确任务、提供背景、输入数据及输出要求。文中提供了两个实用模板(角色-任务-步骤-输出、输入-处理-输出)并强调提示词工程是提升AI交互效率的关键技能,将成为未来重要的生产力工具。(150字)

文章图片
运行Stream 程序总是报 ModuleNotFoundError: No module named ‘pymupdf‘

摘要:解决Python环境下Streamlit运行报错问题。当通过Anaconda路径下的Streamlit执行程序报错时,发现系统找不到正确的Python环境。解决方案是定位VSCode使用的Python路径(如C:\Python314),在该环境下重新安装Streamlit,最后使用全路径Python可执行文件运行程序(C:\Python314\python.exe -m streamlit

#python
人工智能基础知识笔记十二:相似性计算方法

本文介绍了向量相似性计算在机器学习和数据科学中的核心作用,重点分析了8种常用方法。余弦相似度适合文本分析但对长度不敏感;欧氏距离直观但受高维影响;曼哈顿距离对异常值鲁棒;点积高效但需归一化;马氏距离考虑特征相关性但计算复杂;Jaccard适用于二元数据;预训练模型捕捉语义但资源消耗大。每种方法各有特点,选择时应结合数据特性(如维度、稀疏性)和任务需求(方向或距离敏感)。这些相似性度量支撑着推荐系统

#人工智能
    共 53 条
  • 1
  • 2
  • 3
  • 6
  • 请选择