nju_spy 个人主页

@nju_spy

nju_spy

2024-04-12 19:13:47 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

南京大学 LLM 开发基础（七）RAG 检索增强生成

RAG（检索增强生成）通过结合外部知识检索与大模型生成能力，显著提升了专业问答的准确性和时效性。其核心流程包括：索引构建（数据清洗、向量化）、文本拆分（固定大小重叠切割）、向量检索（余弦相似度匹配），以及提示词增强生成。相比传统大模型，RAG有效缓解了幻觉问题、上下文长度限制和知识更新滞后等弊端，同时避免了昂贵且易过拟合的微调过程。实现时可通过Haystack或LangChain等框架，构建“检索

#人工智能 #RAG #工作流

南京大学 LLM 开发基础（七）RAG 检索增强生成

#人工智能 #RAG #工作流

李沐深度学习论文精读（二）Transformer + GAN

这篇博客精解了两大深度学习里程碑：Transformer与GAN。Transformer凭借自注意力机制，取代RNN/CNN，解决了长程依赖与并行化的核心难题，成为当今大模型的基础。GAN开创了生成器与判别器对抗的训练范式，无需复杂概率计算，直接生成高质量样本，定义了生成模型的新方向。文章对比了二者的核心创新、优势（并行/高质生成）与缺陷（自回归瓶颈/训练不稳定），并概述了其深远影响。

#深度学习 #人工智能 #机器学习

牛客网 AI题（一）机器学习 + 深度学习

本文摘要了牛客网AI算法工程师，深度学习和机器学习中的关键算法实现。深度学习部分包括LogSoftmax函数、KL散度计算、自注意力机制、RNN/LSTM网络实现；机器学习部分涵盖线性回归梯度下降、特征标准化、损失函数计算（MSE/MAE/Huber/余弦）、岭回归、数据洗牌以及鸢尾花分类任务。

#人工智能 #机器学习 #深度学习

ToT与ReAct：突破大模型推理能力瓶颈

当前，大语言模型的核心瓶颈已从“知识储备”转向“推理能力”。Tree-of-Thoughts (ToT) 与 ReAct 框架代表了突破此瓶颈的两种革命性路径。ToT 通过模拟人类“三思而后行”的决策过程，将线性推理链拓展为树状结构，引入了生成多种思路、评估其前景、并通过搜索算法进行前瞻与回溯的机制，从而在数学推理、创意写作等需要战略规划的任务中取得质的飞跃。 ReAct 则通过交织“推理”与“行

#人工智能

ToT与ReAct：突破大模型推理能力瓶颈

#人工智能

大模型 Coding-for-Reasoning 代码赋能推理（PAL + PaD + CSV）

大语言模型在常识推理中表现出色，却在复杂的数学与逻辑问题上频频“失手”。它们善于分解问题，却常在精确计算和推导上犯错。为了攻克这一瓶颈，“代码辅助推理” 范式应运而生，它将大模型的规划能力与程序解释器的精确性相结合，开启了AI推理的新篇章。本文系统梳理了这一领域的三大经典工作：PAL 开创了“模型写代码，解释器做计算”的分工模式；PaD 通过程序蒸馏，将强大的推理能力高效迁移至小模型；CSV 则引

#人工智能

大模型 Coding-for-Reasoning 代码赋能推理（PAL + PaD + CSV）

#人工智能

机器学习 - Kaggle项目实践（3）Digit Recognizer 手写数字识别

本文介绍了使用卷积神经网络(CNN)进行手写数字识别的完整流程。首先对MNIST数据集进行预处理，包括归一化、reshape和one-hot编码。然后构建包含两个卷积块(5x5和3x3卷积核)的CNN模型，采用批归一化和Dropout防止过拟合。训练过程中使用学习率退火和数据增强策略，最终在验证集上达到了99.5%的准确率。文章还展示了损失/准确率曲线、混淆矩阵分析以及典型错误样本的可视化，最后生

#机器学习 #人工智能

机器学习 - Kaggle项目实践（2）房价预测问题

本文介绍了Kaggle房价预测问题的两种解决方案：1) 使用TensorFlow决策森林(TF-DF)模型，直接处理原始数据，通过随机森林实现回归预测，并分析特征重要性；2) 采用集成学习方法，包括数据预处理（处理异常值、缺失值、特征工程）、多种模型(ENet,GBoost,KRR,lasso)的简单平均和Stacking集成，最终通过加权平均(Stacking70%+XGBoost15%+LGB

#机器学习 #人工智能 #集成学习 +1

共 31 条

请选择