利用递归层次遍历句法结构树（Stanfordcorenlp及nltk）

在自然语言处理中，处理句法结构树是比较常见的处理问题，如何对句法结构树进行遍历，以及如何抽取出其中的层次关系，是值得去深究的。本文将从Stanfordcorenlp的句法结构树和nltk中的Tree的数据结构入手，进行对句法结构树的层次遍历，抽取出句子中所包含的句法的层次结构。首先需要安装Stanfordcorenlp(请自行CSDN)，然后安装nltk(pip一下就可以用其中的Tree模块了)上

Icy Hunter

1028人浏览 · 2021-10-20 17:07:45

Icy Hunter · 2021-10-20 17:07:45 发布

在自然语言处理中，处理句法结构树是比较常见的处理问题，如何对句法结构树进行遍历，以及如何抽取出其中的层次关系，是值得去深究的。
本文将从Stanfordcorenlp的句法结构树和nltk中的Tree的数据结构入手，进行对句法结构树的层次遍历，抽取出句子中所包含的句法的层次结构。
首先需要安装Stanfordcorenlp(请自行CSDN)，然后安装nltk(pip一下就可以用其中的Tree模块了)

例句：公安部治安局局长刘绍武介绍,这次销毁的非法枪支来源于三个方面。

句法结构树可以通过nltk中draw()画出来如下图：
在这里插入图片描述

（字体有些变形）

通过递归来进行对句法结构的遍历，代码简洁，运行结果如下：
在这里插入图片描述
对照上面的结构树可见 “->”代表的是层次关系，“->”前是上一层的叶节点（这一层的根节点），‘->’后是这一层的叶节点，然后同层的叶节点以空格连接，从而反应出句法结构的层次关系。

代码如下：

from stanfordcorenlp import StanfordCoreNLP
from nltk import Tree


cen = []
def cenxun(tree):
    c = []  # 每一层结果的储存
    if type(tree[0]) == str:  # 如果遇到字符，即到达了叶子节点，便返回
        return
    else:
        root = []  # 储存子树，即遍历下一层时，每个子树的开始都是作为根
        r = tree.label()  # 取出当前节点的句法英文标注
        for i in range(len(tree)):  # 遍历这棵树的子树,root中储存子树，c中保留每棵子树根节点的标注
            root.append(tree[i])    # 即这棵树的叶节点的标注，作为一层的信息
            c.append(tree[i].label())
        c = " ".join(c)  # 每层的叶子节点用空格连接
        c = r + "->" + c  # 根节点用->连接每层的叶节点
        cen.append(c)  # 将每次遍历的结果存cen中
        for rt in root:  # 遍历得到的子树，将每个子树作为新的一棵树进行遍历
            cenxun(rt)  # 递归调用就可以
        return


def main():
    lang = "zh"
    nlp = StanfordCoreNLP(r'E:\stanford-corenlp-4.2.2', lang=lang)
    try:
        sentence = "公安部治安局局长刘绍武介绍,这次销毁的非法枪支来源于三个方面。"
        parse = nlp.parse(sentence)
        t = Tree.fromstring(parse)
        cenxun(t[0])
        t.draw()  # 展示句法结构树
    except:
        print("meet error")
    nlp.close()
    print("\n".join(cen))


if __name__ == '__main__':
    main()
``

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生