
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
PAC可学性与假设空间H\mathcal{H}H复杂度密切相关。假设空间H\mathcal{H}H越复杂,寻找到目标概念的难度越大。对于有限假设空间,可以用其中包含假设的数据来刻画假设空间的复杂度。 然而对于大多数学习问题来说, 学习算法考虑的假设空间并非是有限的,因而无法使用假设的数量来刻画假设空间复杂度。 有以下两种方法可以刻画无限假设空间的复杂度:与数据分布D\mathcal{D}D无关的V
对于一个机器学习任务,通常需要考虑它是不是可学的 (learnable)基本概念给定样本集 D={(x1,y1),(x2,y2),...(xm,ym)}D=\{ (\pmb{x_1}, y_1), (\pmb{x_2}, y_2), ...(\pmb{x_m},y_m)\}D={(x1x1x1,y1),(x2x2x2,y2),...(xmxmxm,ym)}
hdf5简介HDF5是一种专门用于存储表格数据阵列的高性能存储格式。Pandas的HDFStore类k可以将将DataFrame存储在HDF5文件中,以便可以有效地访问它,同时仍保留列类型和其他元数据。 它是一个类似字典的类,因此您可以像读取Python dict对象一样进行读写。HDF5支持压缩存储,使用的方式是blosc,这个是速度最快的也是pandas默认支持的。 使用压缩可以节省空间。..
卷积神经网络CNN卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。 它包括输入层,隐藏层,输出层,其中,隐藏层有包括卷积层(alternating convolutional layer)和池层(pooling layer)。卷积层用于提取特征,池化层也就是下采样,常见
对于一个机器学习任务,通常需要考虑它是不是可学的 (learnable)基本概念给定样本集 D={(x1,y1),(x2,y2),...(xm,ym)}D=\{ (\pmb{x_1}, y_1), (\pmb{x_2}, y_2), ...(\pmb{x_m},y_m)\}D={(x1x1x1,y1),(x2x2x2,y2),...(xmxmxm,ym)}
使用基于决策树的梯度提升算法的一个好处是,可以自动地获取特征的重要性,从而有效地进行特征的筛选。本文基于xgboost进行特征选择的实践使用gradient boosting计算特征重要性通过梯度提升的方法,我们可以根据提升之后的树获取每个特征的重要性。一般来说,特征的重要性表示这个特征在构建提升树的作用。如果一个特征在所有树中作为划分属性的次数越多,那么该特征就越重要。通过每个属性分割点改...
目录目录CTR预估综述Factorization Machines(FM)算法原理代码实现Field-aware Factorization Machines(FFM)算法原理代码实现Deep FM算法原理代码实现参考文献CTR预估综述点击率(Click through rate)是点击特定链接的用户与查看页面,电子邮...
Word2Vec基于 Gensim 的 Word2Vec 实践,从属于笔者的程序猿的数据科学与机器学习实战手册,代码参考gensim.ipynb。推荐前置阅读Python语法速览与机器学习开发环境搭建,Scikit-Learn备忘录。Word2Vec TutorialGettingStarted with Word2Vec and GloVe
交叉熵交叉熵可在神经网络(机器学习)中作为损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。tensorflow中自带的函数可以轻松的实现交叉熵的计算。tf.nn.softmax_cross_entro
Tensorflow计算模型 —— 计算图Tensorflow是一个通过计算图的形式来表述计算的编程系统,计算图也叫数据流图,可以把计算图看做是一种有向图,Tensorflow中的每一个计算都是计算图上的一个节点,而节点之间的边描述了计算之间的依赖关系。计算图的使用在tensorflow程序中,系统会维护一个默认的计算图,通过tf.get_default_graph()函数可以获取当前默认的计算图