logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

南京大学 LLM 开发基础(七)RAG 检索增强生成

RAG(检索增强生成)通过结合外部知识检索与大模型生成能力,显著提升了专业问答的准确性和时效性。其核心流程包括:索引构建(数据清洗、向量化)、文本拆分(固定大小重叠切割)、向量检索(余弦相似度匹配),以及提示词增强生成。相比传统大模型,RAG有效缓解了幻觉问题、上下文长度限制和知识更新滞后等弊端,同时避免了昂贵且易过拟合的微调过程。实现时可通过Haystack或LangChain等框架,构建“检索

#人工智能#RAG#工作流
南京大学 LLM 开发基础(七)RAG 检索增强生成

RAG(检索增强生成)通过结合外部知识检索与大模型生成能力,显著提升了专业问答的准确性和时效性。其核心流程包括:索引构建(数据清洗、向量化)、文本拆分(固定大小重叠切割)、向量检索(余弦相似度匹配),以及提示词增强生成。相比传统大模型,RAG有效缓解了幻觉问题、上下文长度限制和知识更新滞后等弊端,同时避免了昂贵且易过拟合的微调过程。实现时可通过Haystack或LangChain等框架,构建“检索

#人工智能#RAG#工作流
李沐深度学习论文精读(二)Transformer + GAN

这篇博客精解了两大深度学习里程碑:Transformer与GAN。Transformer凭借自注意力机制,取代RNN/CNN,解决了长程依赖与并行化的核心难题,成为当今大模型的基础。GAN开创了生成器与判别器对抗的训练范式,无需复杂概率计算,直接生成高质量样本,定义了生成模型的新方向。文章对比了二者的核心创新、优势(并行/高质生成)与缺陷(自回归瓶颈/训练不稳定),并概述了其深远影响。

#深度学习#人工智能#机器学习
牛客网 AI题​(一)机器学习 + 深度学习

本文摘要了牛客网AI算法工程师,深度学习和机器学习中的关键算法实现。深度学习部分包括LogSoftmax函数、KL散度计算、自注意力机制、RNN/LSTM网络实现;机器学习部分涵盖线性回归梯度下降、特征标准化、损失函数计算(MSE/MAE/Huber/余弦)、岭回归、数据洗牌以及鸢尾花分类任务。

#人工智能#机器学习#深度学习
ToT与ReAct:突破大模型推理能力瓶颈

当前,大语言模型的核心瓶颈已从“知识储备”转向“推理能力”。Tree-of-Thoughts (ToT) 与 ReAct 框架代表了突破此瓶颈的两种革命性路径。ToT 通过模拟人类“三思而后行”的决策过程,将线性推理链拓展为树状结构,引入了生成多种思路、评估其前景、并通过搜索算法进行前瞻与回溯的机制,从而在数学推理、创意写作等需要战略规划的任务中取得质的飞跃。 ReAct 则通过交织“推理”与“行

#人工智能
ToT与ReAct:突破大模型推理能力瓶颈

当前,大语言模型的核心瓶颈已从“知识储备”转向“推理能力”。Tree-of-Thoughts (ToT) 与 ReAct 框架代表了突破此瓶颈的两种革命性路径。ToT 通过模拟人类“三思而后行”的决策过程,将线性推理链拓展为树状结构,引入了生成多种思路、评估其前景、并通过搜索算法进行前瞻与回溯的机制,从而在数学推理、创意写作等需要战略规划的任务中取得质的飞跃。 ReAct 则通过交织“推理”与“行

#人工智能
大模型 Coding-for-Reasoning 代码赋能推理(PAL + PaD + CSV)

大语言模型在常识推理中表现出色,却在复杂的数学与逻辑问题上频频“失手”。它们善于分解问题,却常在精确计算和推导上犯错。为了攻克这一瓶颈,“代码辅助推理” 范式应运而生,它将大模型的规划能力与程序解释器的精确性相结合,开启了AI推理的新篇章。本文系统梳理了这一领域的三大经典工作:PAL 开创了“模型写代码,解释器做计算”的分工模式;PaD 通过程序蒸馏,将强大的推理能力高效迁移至小模型;CSV 则引

#人工智能
大模型 Coding-for-Reasoning 代码赋能推理(PAL + PaD + CSV)

大语言模型在常识推理中表现出色,却在复杂的数学与逻辑问题上频频“失手”。它们善于分解问题,却常在精确计算和推导上犯错。为了攻克这一瓶颈,“代码辅助推理” 范式应运而生,它将大模型的规划能力与程序解释器的精确性相结合,开启了AI推理的新篇章。本文系统梳理了这一领域的三大经典工作:PAL 开创了“模型写代码,解释器做计算”的分工模式;PaD 通过程序蒸馏,将强大的推理能力高效迁移至小模型;CSV 则引

#人工智能
机器学习 - Kaggle项目实践(3)Digit Recognizer 手写数字识别

本文介绍了使用卷积神经网络(CNN)进行手写数字识别的完整流程。首先对MNIST数据集进行预处理,包括归一化、reshape和one-hot编码。然后构建包含两个卷积块(5x5和3x3卷积核)的CNN模型,采用批归一化和Dropout防止过拟合。训练过程中使用学习率退火和数据增强策略,最终在验证集上达到了99.5%的准确率。文章还展示了损失/准确率曲线、混淆矩阵分析以及典型错误样本的可视化,最后生

#机器学习#人工智能
机器学习 - Kaggle项目实践(2)房价预测问题

本文介绍了Kaggle房价预测问题的两种解决方案:1) 使用TensorFlow决策森林(TF-DF)模型,直接处理原始数据,通过随机森林实现回归预测,并分析特征重要性;2) 采用集成学习方法,包括数据预处理(处理异常值、缺失值、特征工程)、多种模型(ENet,GBoost,KRR,lasso)的简单平均和Stacking集成,最终通过加权平均(Stacking70%+XGBoost15%+LGB

#机器学习#人工智能#集成学习 +1
    共 31 条
  • 1
  • 2
  • 3
  • 4
  • 请选择