登录社区云,与社区用户共同成长
邀请您加入社区
《人工智能的底层逻辑》是清华大学张长水教授基于30年教学经验编写的AI通识经典。全书采用12章系统化架构,从基础到前沿完整呈现AI知识体系,独创"四维解析"框架(任务定义-方法原理-实践挑战-未来方向)。本书特色在于:1)权威性与可读性结合,用生活化比喻讲解复杂概念;2)包含大量实用案例(如智能客服、医疗影像分析);3)兼顾技术原理与伦理思考。适合大学生、职场人士等各类读者,帮
机器学习模型性能评估的核心在于合理划分数据集,确保训练、验证和测试集互不重叠。sklearn提供高效工具实现这一过程:train_test_split支持基础划分,交叉验证(如KFold)可充分利用小数据,而GridSearchCV能自动化调参流程。关键要点包括:测试集必须严格隔离、分类数据需分层抽样、固定随机种子保证可复现性。通过鸢尾花分类案例演示了从数据划分到模型调优的完整流程,最终模型应在独
当我们在代码中优化AUC时,不应忘记——每个数字背后是真实患者的生命轨迹。医疗AI的终极目标,是让算法成为医生的“第二双眼睛”,而非替代人类判断。
在信息爆炸的时代,如何从海量文档中快速准确地获取所需信息成为了一个重要挑战。2025年,随着大型语言模型和多模态技术的快速发展,文档问答(Document Question Answering,简称DocQA)技术取得了突破性进展,在处理复杂文档理解、多模态信息融合和知识推理等方面都有了显著提升,为各类专业人士和普通用户提供了高效的文档信息检索和理解工具。
音频转文本client.audio.transcriptions.create()将音频转为文字client.audio.transcriptions.create(file=open("audio.mp3","rb"), model="whisper-1")客户端初始化openai.OpenAI(api_key="API_KEY")创建客户端对象client = openai.OpenAI(ap
TF-IDF(词频-逆文档频率)是一种用于文本挖掘(Text Mining)和信息检索(Information Retrieval,IR)的统计方法,用于评估一个词(Term)在一个文档集合(Corpus)中的重要性。它广泛应用于搜索引擎、文本分类、关键词提取等任务。TF-IDF是NLP中最经典的文本表示方法之一,用于关键词提取、信息检索、文本分类、搜索引擎。计算公式:TF-IDF=词频(TF)×
本节的话我们开始讲解sklearn里面的实战:先看下代码:from sklearn.neural_network import MLPClassifierX = [[0, 0],[1, 1]]y = [0, 1]clf = MLPClassifier(solver='sgd', alpha=1e-5, activation='logistic',...
4.2决策树ID3实践决策树算法最原始的版本是ID3算法,ID3算法由Ross Quinlan发明,建立在“奥卡姆剃刀”的基础上:越是小型的决策树越优于大的决策树(be simple简单理论)。ID3算法中根据信息增益评估和选择特征,每次选择信息增益最大的特征作为判断模块建立子结点。ID3算法可用于划分标称型数据集,没有剪枝的过程,为了去除过度数据匹配的问题,可通过裁剪合并相邻的无法产生大量信息.
在学习朴素贝叶斯之前,我们必须要先掌握贝叶斯公式:这个公式乍一看,你肯定很懵逼,不过不用怕,我们来解释和分解下,你就懂了。朴素贝叶斯(Naive Bayes)算法 是一种基于贝叶斯定理的分类方法,广泛应用于文本分类(如垃圾邮件识别、情感分析等)和其他机器学习领域。特征与特征之间条件相互独立,即在给定类别的条件下,特征之间没有任何关系或依赖。公式数学推导略。
本文系统阐述了机器学习的完整实施框架,旨在为AI学习者奠定基础。内容涵盖从问题定义、数据清洗与EDA、特征工程,到模型选择、训练(含损失函数与梯度下降)、评估及部署监控的全流程。文章深入解析了分类、回归与聚类三大类算法及其评价指标(如精确率、F1分数),并重点讲解了过拟合处理(正则化)、数据不平衡(SMOTE)等关键技术。通过结合Scikit-learn与PyTorch代码示例,提供了从理论到实践
ImportError: cannot import name 'Imputer' from 'sklearn.preprocessing
无监督学习着重于发现数据本身的分布特点。与监督学习不同,无监督学习不需要对数据进行标记。从功能角度讲,无监督学习模型可以帮助我们发现数据的“群落”,同时也可以寻找“离群”的样本;另外对于特征维度非常高的数据样本,我们同样可以通过无监督的学习对数据进行降维,保留最具有区分性的低纬度特征。数据聚类是无监督学习的主流应用之一,最为经典并且易用的聚类模型,要属K均值算法。该算法要求我们预先设定聚类...
摘要:本文系统介绍了机器学习中的欠拟合、过拟合问题及其解决方案。欠拟合源于模型过于简单或特征不足,而过拟合则因模型复杂度过高或数据噪声导致。正则化是解决过拟合的关键技术,包括L2正则化的岭回归(保持所有特征但降低权重)和L1正则化的拉索回归(自动特征选择)。逻辑回归部分重点阐述了Sigmoid函数和交叉熵损失函数的应用,并通过泰坦尼克号数据集示例展示了分类实践。全文通过数学公式和代码实例(skle
实验1:线性回归及岭回归介绍在本实验中,你将实现线性回归及岭回归并了解其在数据上的工作原理。本次实验需要用到的数据集包括:ex1data1.txt -单变量的线性回归数据集ex1data2.txt -多变量的线性回归数据集评分标准如下:要点1:计算损失-------------------------------(20分)要点2:单变量线性回归梯度下降----------(20分)要点3:数据标准
Contingency Matrix,中文通常称为列联表(Contingency Table),是统计学中用于分析两个或多个分类变量之间关系的一种基本工具。它通过一个表格形式,展示不同类别变量的观测频数(或频率)在各个交叉组合下的分布情况,从而帮助研究者判断变量之间是否存在关联性或依赖关系。
机器学习是人工智能的一个分支,它通过算法让计算机从数据中学习规律,并基于这些规律做出预测或决策。scikit-learn(简称sklearn)是Python中最流行的机器学习库之一,它提供了各种监督学习和无监督学习的算法实现。scikit-learn提供了强大而一致的API接口,使得机器学习模型的实现变得简单高效。通过本文的详细讲解和代码示例,你应该已经掌握了:sklearn的基本结构和设计理念数
本文转载自:Eastmount大神的文章:http://www.voidcn.com/article/p-bbabkmsv-pt.html1 Scikit-learn下载安装1.1 简介1.2 安装软件2 TF-IDF基础知识2.1 TF-IDF概念2.2 举例说明计算3Scikit-Learn中计算TF-IDF3.1 CountVectorizer...
1. 综述 1.1 Cover和Hart在1968年提出了最初的邻近算法1.2 分类(classification)算法1.3 输入基于实例的学习(instance-based learning), 懒惰学习(lazy learning)2. 例子:未知电影属于什么类型?3. 算法详述3.1 步骤:1)为了判断未知实例的类别,以所有已知类别的实例作为参照2)选择参数K3)计算未知实例与所有
本文详细介绍了scikit-learn的fetch_openml函数,用于从OpenML平台获取机器学习数据集。文章涵盖函数参数说明、返回值结构,并提供MNIST和泰坦尼克数据集的实用示例。重点讲解了如何使用as_frame和return_X_y控制返回格式,以及处理大数据集的技巧。最后总结了该函数在简化数据获取流程中的优势,帮助研究者专注于模型开发而非数据准备。
精准度(precision)precision = 正确预测的个数(TP) / 被预测正确的个数(TP+FP)召回率(recall)recall = 正确预测的个数(TP)/ 预测个数(FN)调和平均值 F1-Socref1 = 2*精度 * 召回率 /(精度 * 召回率)以二分类问题为例真实\预测010预测negative正确(TN)预测positive错...
本文介绍了sklearn中的归一化(Normalization)操作,主要针对样本级别(L1/L2范数)的缩放。核心要点包括:1)归一化与特征缩放(Scaling)的区别;2)Normalizer类的使用方法和参数说明;3)无状态转换特性及适用场景(如文本处理、余弦相似度计算);4)与StandardScaler等其他预处理方法的对比;5)注意事项(如避免数据泄露、处理零向量等)。通过代码示例演示
本文介绍了 sklearn 中常用的类别特征编码方法: LabelEncoder:将类别映射为整数,适用于目标变量 OrdinalEncoder:支持多列有序特征编码 OneHotEncoder:通过二进制向量表示无序类别 pandas.get_dummies:替代方案 文中提供了各方法的代码示例、参数说明和适用场景建议,并推荐使用ColumnTransformer组合不同编码器。最后强调需注意训
背景tushare ID=399224机器学习已经广泛地应用在数据挖掘、计算机视觉、生物特征识别、证券市场分析和DNA序列测序等领域。机器学习算法可以分为有监督学习,无监督学习,强化学习3种类型。在有监督学习中,最早可以追溯到1936年Fisher发明的线性判别分析,在当时还没有机器学习的概念,其后出现贝叶斯分类器、logistic回归、KNN算法等零碎化的机器学习算法,不成体系,直至1980年开
Calinski-Harabaz指数是一种评估聚类质量的指标,通过计算簇间离散度与簇内离散度之比来衡量聚类效果,得分越高表示聚类效果越好。该指数具有简单易用、解释性强等优点,但对簇形状敏感,适用于球形簇的数据集。在sklearn中,可通过calinski_harabasz_score函数计算该指数,输入数据和聚类标签即可得到评分。使用时需注意其局限性,建议结合其他指标综合评估。示例代码展示了如何生
摘要 当使用fetch_california_housing()加载加州房价数据时出现403错误,可通过手动下载数据文件解决。文章提供了替代方案代码,包含从源URL下载数据、解压处理、数据重组以及特征工程等完整流程。该方案创建了与scikit-learn相同格式的数据对象,包含20,640条房屋记录、8个特征和1个目标值,并保留了原始数据集的完整描述信息。实现过程参考了官方文档和社区解决方案,确保
http://blog.csdn.net/zouxy09/article/details/48903179一、概述 机器学习算法在近几年大数据点燃的热火熏陶下已经变得被人所“熟知”,就算不懂得其中各算法理论,叫你喊上一两个著名算法的名字,你也能昂首挺胸脱口而出。当然了,算法之林虽大,但能者还是有限,能适应某些环境并取得较好效果的算法会脱颖而出,而表现平平者则被历史所淡忘。随着机
【数据挖掘】离群点检测方法详解及Sklearn中异常检测方法实战(附源码 超详细)
data = preprocessing.scale(values) #注意,这里的values是array。然后再加两步:将dataframe转化为array,以及将array还原为dataframe即可!
实验八 鸢尾花数据集分类
【数据挖掘】岭回归Ridge讲解及实战应用(超详细 附源码)
1、下载安装graphviz-2.38.msi url:http://www.graphviz.org/pub/graphviz/stable/windows/graphviz-2.38.msi2、pip install pydot我这里安装完直接就可以import,没有错误。据说有的报错:不能导入dot_parser,这个可以直接安装:pip install -U pydot pypar
sklearn
——sklearn
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net