logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

人工智能基础知识笔记十三:数据清理

本文系统介绍了大型语言模型(LLM)训练前的数据清理方法。主要内容包括:1)文本规范化(大小写处理、特殊字符去除、缩写恢复、停用词过滤);2)噪声数据去除(HTML标签、URL、重复内容等);3)语言检测与过滤;4)分词与标记化技术;5)数据去重、长度过滤、毒性内容检测等关键技术。文章还提供了完整的Python代码示例,涵盖NLTK、BeautifulSoup、transformers等工具库的使

#人工智能
人工智能基础知识笔记二十六:常用的LLM的网站

开源AI工具与资源汇总:包含多个LLM排行榜(HuggingFace、ChatBot Arena)、开发工具(Ollama、LMStudio)、RAG技术指南(AWS、NVIDIA相关文档)、AI代理平台(Botpress、Voyager)以及文本转语音方案(ChatTTS)。提供Colab实践教程(Llama解析、微调)、重要论文(RLHF、多模态研究)和安全研究报告。涵盖从模型部署(Anyth

文章图片
#人工智能
人工智能基础知识笔记十八:Prompt Engineering

摘要:提示词工程(Prompt Engineering)是设计优化输入提示以引导AI生成更精准输出的方法。由于AI模型的局限性及语言歧义性,清晰的提示词能激发模型潜力,提高回答质量。核心要素包括:角色扮演、明确任务、提供背景、输入数据及输出要求。文中提供了两个实用模板(角色-任务-步骤-输出、输入-处理-输出)并强调提示词工程是提升AI交互效率的关键技能,将成为未来重要的生产力工具。(150字)

文章图片
运行Stream 程序总是报 ModuleNotFoundError: No module named ‘pymupdf‘

摘要:解决Python环境下Streamlit运行报错问题。当通过Anaconda路径下的Streamlit执行程序报错时,发现系统找不到正确的Python环境。解决方案是定位VSCode使用的Python路径(如C:\Python314),在该环境下重新安装Streamlit,最后使用全路径Python可执行文件运行程序(C:\Python314\python.exe -m streamlit

#python
人工智能基础知识笔记十二:相似性计算方法

本文介绍了向量相似性计算在机器学习和数据科学中的核心作用,重点分析了8种常用方法。余弦相似度适合文本分析但对长度不敏感;欧氏距离直观但受高维影响;曼哈顿距离对异常值鲁棒;点积高效但需归一化;马氏距离考虑特征相关性但计算复杂;Jaccard适用于二元数据;预训练模型捕捉语义但资源消耗大。每种方法各有特点,选择时应结合数据特性(如维度、稀疏性)和任务需求(方向或距离敏感)。这些相似性度量支撑着推荐系统

#人工智能
人工智能基础知识笔记十六:微调(Fine Tuning)

摘要:微调(Fine-Tuning)是对预训练大模型进行领域适配的再训练过程,使其从通用模型转变为特定领域的专家模型。相比提示词工程,微调能提供更稳定、专业的输出,但成本较高。微调步骤包括:明确任务目标、准备高质量数据集、选择合适模型与方法(如LoRA等高效微调技术)、配置训练参数、评估模型表现。提示词工程适用于简单任务,而专业化和高可靠性需求则需考虑微调。

#人工智能
人工智能基础知识笔记二十五:构建一个优化PDF简历的Agent

本文介绍了构建一个简历优化Agent的技术方案,该Agent能够解析PDF简历并优化输出为PDF格式。方案使用PyMuPDF加载PDF,通过LangChain调用Ollama大模型进行简历内容优化,并对比了三种PDF生成方案(reportlab、fpdf2和weasyprint)。测试发现weasyprint对Unicode支持最佳,但存在依赖库安装问题导致可能回退为TXT输出。当前方案能有效优化

文章图片
#人工智能
人工智能基础知识笔记十四:文本转换成向量

文本向量化是自然语言处理的关键步骤,将文本转换为数值向量以供机器学习模型处理。主要方法包括:基于词频的BoW和TF-IDF,简单高效但无法捕捉语义;词嵌入方法(Word2Vec、GloVe)通过预测上下文或全局统计生成低维稠密向量,能表达语义关系但无法处理多义词;动态嵌入技术(ELMo、BERT)利用深度学习生成上下文相关向量,性能优越但计算成本高;FastText和Doc2Vec则分别针对未登录

#人工智能
人工智能基础知识笔记二十二:构建一个可以搜索Web的Agent

摘要:Agent(智能体)是能感知环境、自主决策并采取行动实现目标的系统,分为StaticModel和DynamicModel两种类型。StaticModel智能体使用固定参数模型,具有稳定、可控和低成本的特点,适用于客服、编程助手等场景。DynamicModel智能体能持续学习和自我进化,适用于游戏AI、自适应机器人等复杂环境,但面临稳定性与安全性的挑战。两种智能体各具优势,StaticMode

文章图片
人工智能基础知识笔记十六:微调(Fine Tuning)

摘要:微调(Fine-Tuning)是对预训练大模型进行领域适配的再训练过程,使其从通用模型转变为特定领域的专家模型。相比提示词工程,微调能提供更稳定、专业的输出,但成本较高。微调步骤包括:明确任务目标、准备高质量数据集、选择合适模型与方法(如LoRA等高效微调技术)、配置训练参数、评估模型表现。提示词工程适用于简单任务,而专业化和高可靠性需求则需考虑微调。

#人工智能
    共 56 条
  • 1
  • 2
  • 3
  • 6
  • 请选择