
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
一、问题引入–英文长句切分其实英文里面也是有一些短语,比如:I traveled to New York last year其中 New York 可以作为一个短语来看待,在情感分析以及别的任务里面可能会有更好的性能提升。英文长句的切分也是一个研究的方向:比如论文:Neural Text Segmentation and Its Application to Sentiment Analysis二
1、Minsky与Papert指出:感知机因为是线性模型,所以不能表达复杂的函数,比如异或(XOR)。验证感知机为什么不能表示异或。解:下面是异或的运算结果:异或: 如果两个值相同则异或操作的结果是0,如果不相同则为1由此我们可以看到,这也是一个二分类的问题,异或的运算如表所示XORaba01b10如果我们去a = 0, b = 1,将上表的结果画在二维平面,如下图。我们可以看到,对于蓝色的圆点和
1、对以下样本进行主成分分析:[233457245568]\begin{bmatrix}2 & 3 & 3 & 4 &5& 7\\2 & 4 & 5 & 5 & 6 &8\end{bmatrix}[223435455678]解:import numpy as npdef PCA(X):# 下面先对数据进行规
11.1、写出图11.3中无向图描述的概率图模型的因子分解式。解:根据最大团的定义可知,该最大团共有两个最大团,李航老师的书上也指了出来。分别是:c1=(Y1,Y2,Y3),c2=(Y2,Y3,Y4) c_{1}=(Y_{1},Y_{2},Y_{3}), c_{2}=(Y_{2},Y_{3},Y_{4})c1=(Y1,Y2,Y3),c2=(Y2,Y3,Y4)那么根据Hammersl
1、确认逻辑斯谛分布属于指数分布族。证明:逻辑斯谛分布的概率密度函数是:f(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2(1)f(x) = \frac{e^{-(x-\mu )/\gamma } }{\gamma (1+e^{-(x-\mu )/\gamma})^{2} } \tag{1}f(x)=γ(1+e−(x−μ)/γ)2e−(x−μ)/γ(1)而指数族分布是指概率密度函数可以表
从xml中提取的,文件格式为tsv,和csv差不多在这里插入代码片
1、证明生成模型和共享模型是等价的。证明:1.1生成模型首先,生成模型基于假设:假设在话题zzz给定条件下,单词www和文本ddd条件独立,即:P(w,z∣d)=P(z∣d)P(w∣z,d)=P(z∣d)P(w∣z)(1)P(w,z|d) = P(z|d)P(w|z,d) = P(z|d)P(w|z)\tag{1}P(w,z∣d)=P(z∣d)P(w∣z,d)=P(z∣d)P(w∣z)(1)公式(
8.1、题目太长,懒得打字了因为训练数据实例的维度比书中的例子8.1的实例的维度大,也就是特征的数目比较多,因而需要进行特征选择。我在这里根据数据集里面数据的权重进行特征选择的,如果按照原始数据进行原则,那么除了强制排除已经选择的特征,否则每次构造决策树桩,都只能选择相同的特征进行构造决策树桩,这显然是不合理的。直接上代码:import numpy as npdef choose_characte
1、试将图17.1的例子进行潜在语义分析,并对结果进行观察。解:使用奇异值分解算法进行分析,该矩阵的阶数比较低,使用梯度下降算法感觉会麻烦一点,还可能无法达到最优解。程序是:import numpy as npdef solution(A):U,S,V_T = np.linalg.svd(A)return U, S, V_Tif __name__ == '__main__':A = np.arra
1、试写出分裂聚类算法,自上而下地对数据进行聚类,并给出其算法复杂度。解:算法流程大致如下:输入:数据集T,指定需要划分的簇数k输出:k个数据集的子集将数据集T中的所有样本作为一个初始簇。在所有的簇中选择直径最大的簇记为C0C_0C0。计算簇C0C_0C0中所有的点到其他点的平均距离最大的点 p0p_0p0放在一个新的簇CnewC_{new}Cnew中,C0C_0C0中剩余的样本构成的簇