logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型面经(一) Prompt + RAG + 微调

本文探讨了大模型微调与检索增强生成(RAG)的关键技术与优化策略。在微调方面,重点分析了领域微调中平衡领域知识与通用能力的方法、SFT指令遵循能力下降的原因及解决方案、PEFT三大核心方法(LoRA、Prefix-Tuning、Adapter)的原理与实现,以及QLoRA和DPO的创新优势。在RAG方面,系统梳理了13类常见问题及解决方案,详细介绍了RAG-Fusion的多源检索融合技术,提出了检

#人工智能#RAG#面试 +1
华为AI岗 -- 笔试(一)

本文总结了华为牛客网AI题库。代码题部分包括:1)DBSCAN聚类实现,详细说明算法流程、核心点判断和噪声处理逻辑;2)Masked多头自注意力机制实现,重点讲解因果掩码的应用和数值稳定性处理。此外还整理了代码题的标准输入输出格式,包括单行/多行数据、矩阵等场景的读取方法。选择题部分涵盖大模型训练流程(如SFT阶段作用)、卷积计算、概率期望、集成学习等知识点,并给出详细解析。最后提供Tokeniz

#人工智能#机器学习#华为 +1
周志华《机器学习导论》第11章 特征选择与稀疏学习

本文基于周志华院士《机器学习导论》第11章,系统综述特征选择与稀疏学习的主要方法。首先阐述特征子集的搜索策略与信息增益等评价准则;进而对比三类特征选择方法:过滤式(如Relief)、包裹式(如LVW)及嵌入式(如L1正则化);随后讨论稀疏表示与字典学习(K-SVD算法),说明如何通过字典构造获得数据的稀疏编码;最后介绍压缩感知理论,阐明如何利用信号稀疏性从欠采样数据中精确重构原信号,并关联至矩阵补

#机器学习#人工智能
三篇大模型代码生成优化:探索REx - 反思Reflexion - 调试LDB

大语言模型(LLM)在代码生成领域展现出显著潜力,但单次生成难以满足复杂任务的测试用例覆盖要求,且传统优化策略常陷入局部最优或资源浪费困境。本文将系统解析这三类代表性工作的核心机制:从 REx 引入多臂老虎机的 “探索 - 利用” 权衡机制优化迭代方向,到 Reflexion 以 “语言记忆” 构建反思式强化学习范式实现经验复用,再到 LDB 借鉴人类调试逻辑,通过跟踪运行时中间状态定位代码缺陷。

#人工智能
南京大学 LLM 开发基础(七)RAG 检索增强生成

RAG(检索增强生成)通过结合外部知识检索与大模型生成能力,显著提升了专业问答的准确性和时效性。其核心流程包括:索引构建(数据清洗、向量化)、文本拆分(固定大小重叠切割)、向量检索(余弦相似度匹配),以及提示词增强生成。相比传统大模型,RAG有效缓解了幻觉问题、上下文长度限制和知识更新滞后等弊端,同时避免了昂贵且易过拟合的微调过程。实现时可通过Haystack或LangChain等框架,构建“检索

#人工智能#RAG#工作流
李沐深度学习论文精读(二)Transformer + GAN

这篇博客精解了两大深度学习里程碑:Transformer与GAN。Transformer凭借自注意力机制,取代RNN/CNN,解决了长程依赖与并行化的核心难题,成为当今大模型的基础。GAN开创了生成器与判别器对抗的训练范式,无需复杂概率计算,直接生成高质量样本,定义了生成模型的新方向。文章对比了二者的核心创新、优势(并行/高质生成)与缺陷(自回归瓶颈/训练不稳定),并概述了其深远影响。

#深度学习#人工智能#机器学习
ToT与ReAct:突破大模型推理能力瓶颈

当前,大语言模型的核心瓶颈已从“知识储备”转向“推理能力”。Tree-of-Thoughts (ToT) 与 ReAct 框架代表了突破此瓶颈的两种革命性路径。ToT 通过模拟人类“三思而后行”的决策过程,将线性推理链拓展为树状结构,引入了生成多种思路、评估其前景、并通过搜索算法进行前瞻与回溯的机制,从而在数学推理、创意写作等需要战略规划的任务中取得质的飞跃。 ReAct 则通过交织“推理”与“行

#人工智能
大模型 Coding-for-Reasoning 代码赋能推理(PAL + PaD + CSV)

大语言模型在常识推理中表现出色,却在复杂的数学与逻辑问题上频频“失手”。它们善于分解问题,却常在精确计算和推导上犯错。为了攻克这一瓶颈,“代码辅助推理” 范式应运而生,它将大模型的规划能力与程序解释器的精确性相结合,开启了AI推理的新篇章。本文系统梳理了这一领域的三大经典工作:PAL 开创了“模型写代码,解释器做计算”的分工模式;PaD 通过程序蒸馏,将强大的推理能力高效迁移至小模型;CSV 则引

#人工智能
机器学习 - Kaggle项目实践(3)Digit Recognizer 手写数字识别

本文介绍了使用卷积神经网络(CNN)进行手写数字识别的完整流程。首先对MNIST数据集进行预处理,包括归一化、reshape和one-hot编码。然后构建包含两个卷积块(5x5和3x3卷积核)的CNN模型,采用批归一化和Dropout防止过拟合。训练过程中使用学习率退火和数据增强策略,最终在验证集上达到了99.5%的准确率。文章还展示了损失/准确率曲线、混淆矩阵分析以及典型错误样本的可视化,最后生

#机器学习#人工智能
机器学习 - Kaggle项目实践(2)房价预测问题

本文介绍了Kaggle房价预测问题的两种解决方案:1) 使用TensorFlow决策森林(TF-DF)模型,直接处理原始数据,通过随机森林实现回归预测,并分析特征重要性;2) 采用集成学习方法,包括数据预处理(处理异常值、缺失值、特征工程)、多种模型(ENet,GBoost,KRR,lasso)的简单平均和Stacking集成,最终通过加权平均(Stacking70%+XGBoost15%+LGB

#机器学习#人工智能#集成学习 +1
    共 27 条
  • 1
  • 2
  • 3
  • 请选择