logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

NLP任务学习

(总结对该任务学习心得,也可以列出对该任务的问题、疑惑与思考)1.多样性:中文分词任务具有多样性,不同的文本场景、行业、领域可能需要不同的分词方法和模型。因此,在实际应用中需要根据具体情况选择合适的分词工具和技术。2.方法比较:常见的中文分词方法包括基于规则的方法、基于统计学习的方法和基于深度学习的方法。不同方法各有优缺点,需要根据实际需求进行选择和比较。3.工具选择:针对中文分词任务,有许多开源

文章图片
#自然语言处理#学习#中文分词
加利福尼亚房价预测实验

其实从数据库的角度来说,数据离散化也可以实现概念分层,比如用到的数据集中有经纬度属性,每个经纬度表示一个街区的真实地理位置,如果有辅助数据的话,我们可以合并邻近的街区为社区,这样经纬度属性就会变为社区属性,还可以将社区进一步合并为城市,这样经纬度属性就生成了城市名称属性。对训练集分别随机抽取10%,30%,50%和80%的样本作为训练子集,利用训练子集训练线性回归模型,然后在测试集上预测房价属性。

文章图片
#机器学习#人工智能#深度学习 +1
杂货店商品数据集频繁项集挖掘实验

创建一个空字典,将4.1处理好的列表的每一项取出,以食物名为键,每种食物在事务集出现的次数作为值,食物每出现一次,给对应键的值+1,计算支持度计数,与阈值作比较,若大于阈值则为频繁项。3)元组tuple中的元素值是不可修改的(但可以通过切片slice的方式来获取指定的索引起始位置和终止位置的元素),而集合set中的元素是可修改的,比如删除指定的元素。在Python中,set 中的元素必须是可哈希(

文章图片
#python#开发语言
杂货店商品数据集频繁项集挖掘实验

创建一个空字典,将4.1处理好的列表的每一项取出,以食物名为键,每种食物在事务集出现的次数作为值,食物每出现一次,给对应键的值+1,计算支持度计数,与阈值作比较,若大于阈值则为频繁项。3)元组tuple中的元素值是不可修改的(但可以通过切片slice的方式来获取指定的索引起始位置和终止位置的元素),而集合set中的元素是可修改的,比如删除指定的元素。在Python中,set 中的元素必须是可哈希(

文章图片
#python#开发语言
加利福尼亚房价预测实验

其实从数据库的角度来说,数据离散化也可以实现概念分层,比如用到的数据集中有经纬度属性,每个经纬度表示一个街区的真实地理位置,如果有辅助数据的话,我们可以合并邻近的街区为社区,这样经纬度属性就会变为社区属性,还可以将社区进一步合并为城市,这样经纬度属性就生成了城市名称属性。对训练集分别随机抽取10%,30%,50%和80%的样本作为训练子集,利用训练子集训练线性回归模型,然后在测试集上预测房价属性。

文章图片
#机器学习#人工智能#深度学习 +1
泰坦尼克号数据集乘客幸存分析实验

2)混合属性相异性度量规则,根据公式可知,由于我们已将含有空白值属性的样本删除,我们要计算出每两个对象之间除了非对称二元属性(若两对像取值皆为0)之外的属性总数。再根据不同属性所属的类型(标称,对称二元,数值,序数)来按照对应的规则计算其向异性,再根据公式相加即可得混合类型属性集的相异性度量。(2)将幸存属性设置为类别标签,使用K近邻算法作为分类算法(无需考虑PassengerID,name,ti

文章图片
#数据挖掘
水资源质量数据集分析

具体来说,当P值非常接近于零时,我们有足够的理由拒绝原假设,因为我们观察到的数据在原假设下的概率非常小,这被认为是统计上显著的。在统计学中,P值通常是一个介于 0 和 1 之间的概率值,表示观察到的数据或更极端情况出现的概率。这意味着观察到的数据在原假设下出现的概率较低,我们有足够的证据来怀疑原假设的真实性。水的浊度取决于悬浮状态的固体物质的数量。)是在统计假设检验中的一个重要指标,用于评估观察到

文章图片
#信息可视化
泰坦尼克号数据集分析实验

同样的,统计总乘客中Pclass属性的特征分布,已经幸存者在不同Pclass值中所占比例,可以明显发现,一等舱的乘客幸存概率最大,即社会地位越高,生存情况越好。(2)使用sns.catplot()函数绘制Pclass(序数)属性,Sex(二元)属性,Embarked(乘客上船地点,标称)属性的柱状图。再抽出幸存者的数据,进行相同的度量操作,进行对比。(1) 自由选择可视化方法,可视化数据集中的Pc

文章图片
#数据挖掘
到底了