辞颜377 个人主页

@qq_62234605

辞颜377

2023-10-03 11:26:44 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

GAN学习笔记

摘要：生成对抗网络（GAN）通过生成器（G）与判别器（D）的对抗训练实现高质量数据生成。核心思想是G生成假样本，D鉴别真伪，二者在博弈中共同优化。训练流程包括交替更新G和D，目标函数为最小-最大博弈。常见问题包括模式崩塌（生成样本单一）、梯度消失（D过强导致G无法学习）和训练不稳定，可通过WGAN-GP、谱归一化、数据增强等策略缓解。GAN变体如DCGAN、cGAN（条件生成）、StyleGAN

#生成对抗网络 #学习 #AIGC

理解长短期记忆神经网络（LSTM）

LSTM（长短期记忆网络）通过引入细胞状态和三个门控机制（遗忘门、输入门、输出门），有效解决了传统RNN在长序列处理中的梯度消失和爆炸问题。这种结构使其能够选择性记忆重要信息，在自然语言处理、语音识别等领域表现优异。虽然Transformer等新模型已超越LSTM的部分性能，但LSTM仍是理解序列模型发展的重要里程碑，其门控机制为后续模型提供了关键思路。

#神经网络 #lstm #人工智能

K-means 聚类算法学习笔记

K-means是一种简单高效的聚类算法，通过迭代优化将数据划分为K个簇。其核心思想是让簇内数据点尽可能相似，簇间尽可能不同。算法流程包括初始化质心、分配数据点到最近质心、更新质心位置两步迭代，直至收敛。关键点包括：1）需对数据进行标准化处理；2）推荐使用K-means++初始化；3）选择K值可通过肘部法则或轮廓系数；4）适合球形簇数据。但存在对离群点敏感、仅适合数值型数据等局限，非球形簇数据可考虑

#算法 #kmeans #聚类 +1

RAG简要流程概述

检索增强生成（RAG）是一种融合信息检索与文本生成的技术，用于提升大型语言模型（LLM）的准确性和可靠性。其核心流程包括：1）文档分片处理以适应模型输入；2）通过嵌入模型将文本转换为向量；3）使用向量数据库存储以便高效检索；4）根据查询召回相关片段；5）交叉编码器重排提升相关性；6）LLM基于检索内容生成最终回答。RAG通过结合检索的精确性和LLM的生成能力，有效减少了"幻觉"

#python #AIGC

CHAID算法

CHAID是一种基于卡方检验（Chi-square test）或F检验（F-test）的决策树算法。想象你正在做一项市场调查，想知道“年龄”、“收入”和“居住地”这三个因素中，哪个因素对“是否购买你的产品”的影响最大。传统决策树（如CART）：会计算哪个因素能让“购买”和“不购买”的人群分得最“纯净”（即信息增益最大）。CHAID：会用统计检验来问：“‘年龄’和‘购买意愿’之间，是否存在显著的、非

#算法 #人工智能 #机器学习

深度信念网络 (DBN) 学习笔记

想象一下，我们想让计算机像人一样“理解”世界，比如识别图片中的猫狗，甚至能“想象”出新的猫狗图片。深度信念网络（Deep Belief Network，简称 DBN）就是早期深度学习领域中，为了实现这个目标而诞生的一种强大模型。简单来说，DBN 是一种深度学习模型，它由多层特殊的“特征提取器”堆叠而成。这些“特征提取器”叫做受限玻尔兹曼机（RBM, Restricted Boltzmann Mac

本文介绍了一个基于Python的异步网页爬虫项目，用于抓取特定网页内容并提取指定年份的年度报告PDF链接。项目采用asyncio、crawl4ai、OpenAI等技术实现高效爬取和智能分析功能，主要包含三个核心模块：通过AsyncWebCrawler异步爬取网页内容；利用OpenAI模型从Markdown中精确提取符合年份要求的PDF链接；使用aiohttp并发下载文件。系统支持命令行参数指定目标

#爬虫 #python

到底了