机器学习实战（代码部分）-- 朴素贝叶斯之文本分类（Ⅳ 文档的词袋模型）

4-4 朴素贝叶斯词袋模型在之前的案例中，使用的是如下朴素贝叶斯的词集模型：def setWordsToVec(vocabList, inputSet):returnVec = [0] * len(vocabList)# 创建一个其中所含元素都为0的向量for word in inputSet:# 遍历每个词条if word in vocab...

m0_38056893

714人浏览 · 2019-11-01 10:34:18

m0_38056893 · 2019-11-01 10:34:18 发布

4-4 朴素贝叶斯词袋模型

在之前的案例中，使用的是如下朴素贝叶斯的词集模型：

def setWordsToVec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)  # 创建一个其中所含元素都为0的向量
    for word in inputSet:  # 遍历每个词条
        if word in vocabList:  # 如果词条存在于词汇表中，则置1
            returnVec[vocabList.index(word)] = 1
        else:  # 不会出现如下情况
            print("the word: %s is not in my Vocabulary!" % word)
    return returnVec  # 返回文档向量

词袋模型

若一个词在文档中出现不止一次，这可能意味着包含该词是否出现在文档中所不能表达的某种信息，这种方法称为词袋模型。

下面是基于词袋模型的朴素贝叶斯代码，唯一与上面代码不同的是每遇到一个单词时，它会增加词向量中的对应值，而不是将数值设为1。

def setWordsToVecBag(vocabList, inputSet):
    returnVec = [0] * len(vocabList)  # 创建一个其中所含元素都为0的向量
    for word in inputSet:  # 遍历每个词条
        if word in vocabList:  # 如果词条存在于词汇表中，则置1
            returnVec[vocabList.index(word)] += 1
    return returnVec  # 返回文档向量

亚马逊云科技技术品牌专区

更多推荐

STM32节点移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）

STM32移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）前言前言在移植协议之前，先给大家科普一下Lora 和 lorawan 的区别。LoRa 是LPWAN通信技术中的一种，是美国Semtech公司采用和推广的一种基于扩频技术的超远距离无线传输方案。这一方案改变了以往关于传输距离与功耗的折衷考虑方式为用户提供一种简单的能实现远距离、长电池寿命、大容量的系统，进而扩...

亚马逊云科技技术品牌专区

物联网主机E6000引领工业自动化的新篇章

亚马逊云科技技术品牌专区

搞 IoT 物联网，你居然要懂这么多种协议...

物联网协议是指在物联网环境中用于设备间通信和数据传输的协议。根据不同的作用，物联网协议可分为传输协议、通信协议和行业协议。传输协议：一般负责子网内设备间的组网及通信。例如 Wi-Fi、Ethernet、NFC、 Zigbee、Bluetooth、GPRS、3G/4G/5G等。这些协议能够确保在网络上传输的数据的安全性和可靠性。通讯协议：主要是运行在传统互联网TCP/IP协议之上的设备通讯协议，负责