NLP–句法分析

1.句法分析介绍

在自然语言处理中,机器翻译是一个重要的的课题,也是 NLP 应用的主要领域,而句法分析是机器翻译的核心数据结构。 句法分析是自然语言处理的核心技术,是对语言进行深层次理解的基石。

句法分析的主要任务是识别出句子所包含的 句法成分 以及这些 成分之间的关系,一般以 句法树 来表示 句法分析的结果。

句法分析一直是自然语言处理前进的巨大障碍,句法分析主要有以下两个难点:

  • 歧义

    • 自然语言区别于人工语言的一个重要特点就是它存在大量的歧义现象。人类自身可以依靠大量的先验知识有效地消除各种歧义, 而机器由于在知识表示和获取方面存在严重不足,很难像人类那样进行句法消歧。
  • 搜索空间

    • 句法分析是一个极为复杂的任务,候选树个数随句子增多呈指数级增长,搜索空间巨大。因此,必须设计出合适的解码器,以确保能能够在 可以容忍的时间内搜索到模型定义最优解。

句法分析(Parsing) 是从单词串得到句法结构的过程,而实现该过程的工具或程序被称为 句法分析器(Parser)。句法分析的种类很多, 根据其侧重目标将其分为:

  • 完全句法分析
  • 局部句法分析

句法分析中所用方法可以简单地分为两大类:

  • 基于规则的方法

    • 基于规则的方法在处理大规模真实文本时,会存在语法规则覆盖有限、系统可迁移等缺陷
  • 基于统计的方法

    • 随着大规模标注树库的建立,句法分析器的性能不断提高,最经典的就是 PCFG(Probabilistic Context Free Grammar), 它在句法分析领域得到了极大的应用,也是现在句法分析中常用的方法。
    • 统计句法分析模型本质上是一套面向候选树对的评价方法,其会给正确的句法树赋予一个较高的分值,而给不合理的句法树赋予一个较低的分值 这样就可以借用候选句法树的分值进行消歧。

2.句法分析的数据集与评测方法

统计分析方法一般都离不开语料数据集和相应的评价体系的支撑。

2.1 句法分析的数据集

2.2 句法分析的评测方法

2.3 句法分析的常用方法