语言分析方法与当代科学哲学

三、语言分析方法与当代人工智能问题

字体:16+-

当代认知科学和人工智能研究的核心论题——人工智能表征和自然语言处理问题同样经历了语用化发展。作为人工智能的核心领域之一,表征理论的发展水平直接决定了计算机可以达到的智能水平,然而,人工智能表征的分解方法在自然语言语义理解方面遇到各种瓶颈,该难题要想获得突破,就必须以整体性语境描写方法取代传统的基于词汇的语境描写方法,从而在表征问题上突破句子层次结构的限制和句法、语义、语用三个平面的划分,实现整体性语境构建方法与分解方法的有机融合,自然语言处理是计算机智能的核心技术,但由于缺乏统一的理论基础以及思维模式的限制,其发展速度相当缓慢,至今尚未取得重大突破,经历了从整体到局部的思想转变之后,下一阶段自然语言处理的关键就在于,在动态语义分析中引入语用技术,从而在语形和语义阶段的基础上,朝向新的语用化阶段发展。

(一)当代人工智能表征的分解方法及其问题

“认知科学必然以这样一个信念为基础:那就是划分一个单独的称之为‘表征层’的分析层是合理的。”①在人工智能早期阶段,表征(repre-sentation)融于计算之中,这对于编程人员和专家系统的领域专家来说都是一件烦琐的工作。系统程序一旦编好,要想修改就非常困难。并且,不能重复利用已有系统,这在很大程度上浪费了人力和资源,不利于人工智能理论与工程的发展。到了专家系统阶段,知识库和推理机的分离机制,使人工智能表征和计算以相对独立的姿态在各自领域展开研究。这是人工智能发展史上的一次巨大进步。然而,基于形式系统的人工智能在模拟人类智能过程中,在表征问题上发展非常缓慢,遇到了难以逾越的鸿沟,所有的瓶颈问题最后都落在了理解自然语言的语义问题上。我们认为,基于分解(analysis)的方法是造成人工智能表征瓶颈的关键所在。因此,有必要从处理人工智能表征的思想方法入手,探索解决这一难题的可能途径。

1.分解方法已经成为人工智能表征发展中的瓶颈

自1956年达特茅斯(Dartmouth)会议提出“人工智能”以来,作为人工智能核心技术之一的表征,其发展速度相当缓慢,至今尚未取得重大突破。这是一个值得深刻反思的问题。建立在形式系统之上的人工智能,在处理表征的方法问题上,通常认为“句子的意义由其语法(gram-mar)以及单词的意义决定”①,而语法“用于制定如何由词造句的原则”②。并且,受乔姆斯基的有限状态语法(finite-state grammar)、“短语结构语法”(phrase structure grammar)以及“转换生成语法”(transfor-mational grammar)三个语法模式理论的深刻影响,将句子分解为层次结构的思想成为人工智能表征的主要方法之一。以上述思想为预设,人工智能在处理表征问题时主要采用句法分析(Syntax analysis)、语义分析(Semantic analysis)以及词汇分析(Lexical analysis)等基于分解的方法。而这些分解方法实现的基础是首先将句子分解为单词,计算机才可以采取进一步的智能处理。可见,无论是哪个角度、哪个层面的处理,人工智能表征所采取的方法都是基于分解思想的。从人工智能理论发展的历程来看,分解是建立在形式系统之上的人工智能表征的必然选择。然而,在发展到一定程度之后,分解方法的弊端逐步凸现。因此,思想方法的转变成为下一步人工智能能否取得突破的关键所在。不过,新的方法必然要以分解方法为基础,我们很难在形式系统上构建完全脱离分解思想的新的表征方法。由此,正确认识分解方法的思想本质成为新方法建立的前提。

第一,分解思想是造成人工智能表征各种瓶颈问题的理论根源人工智能表征在发展到专家系统阶段之后,就逐步从自然语言处理的语形阶段向语义阶段迈进。而在自然语言处理的思想方法问题上,对语言意义的处理深受相关哲学思想的影响。其思想方法的哲学根源在于:为了获得关于语言本性的认识,首要的就是把意义概念置于首位。因此,“从一开始,包括弗雷格、罗素、卡尔纳普以及语言学家乔姆斯基等,在探讨意义理论时就未加分析地预设了许多前提”。对于自然语言处理影响最深的思想就是,“意义本质上在于把词和事物联系起来,句子的意义由它各组成部分的意义构成,或是它各部分的意义的函数,句子的本质作用是描述事态。这些理论或者采取的是意义规则的一种运算的和语形的形式,或者是一种自然语言的语义学形式”①。这种以分解为基础的指导思想映射到自然语言中就表现为,一个句子可以看作由词素、词、短语、从句等不同层次的成分构成,其中每个层次都受到相应语法规则的约束,层次之间互相影响和互相制约,而层次关系的实现则直接体现在自然语言句子的构成上。各个层次分解的意义最终组合成人们对整个自然语言句子的理解。

受这一思想的深刻影响,大多数自然语言处理都遵循以下方法:计算机对自然语言的处理是一个层次化过程,计算机用分解方法对输入的自然语言进行理解,并以构造方法生成所要输出的自然语言。并且,在这个过程中,语言的词汇可以被分离出来加以专门研究。这是一种建立在分解基础上的指导思想。根据语言的构成规则,在实现人与计算机之间的自然语言通信过程中,计算机除了需要理解给定的自然语言文本,还必须能以自然语言文本的方式来表达处理结果。因此,自然语言处理的核心技术主要包括:针对输入的自然语言理解(Natural Language Un-derstanding)和针对输出的自然语言生成(Natural Language Generation)两个过程。在输入过程中,系统以分解的方式,把自然语言逐层转化为计算机程序可以处理的表征形式,并利用各种层次的相关知识,进而实现对自然语言的语义理解;在输出过程中,系统又通过构造的方式生成完整句子,从而将所要表达的处理结果转换为人类可以读懂的自然语言。这样,智能系统不仅可以“听懂”人的语言,而且可以“说出”它想要表达的意思。这种基于分解的指导思想从一开始就决定了自然语言处理必须先从分词、句法分析、文本分割等语形处理方法入手,而后再通过语义及语用分析来完成对文本意义的理解。

然而,语境论指出,语词的意义由其所在的句子决定,而句子的意义由其所在的上下文(context)即“语境”决定。计算机在基于分解的语形处理基础上,必须借助于知识库中的常识知识才能进一步实现语义及语用处理。而常识知识工程的失败表明,用于语义理解的知识“是语境相关的。也就是说,关于知识的主张的正确与否,会随着会话和交流的目的而变化,因而,知识主张的适当性也是随着语境的特征变化着的”①。基于静态知识描写的常识知识工程不可能将语词在所有可能语境中的意义都预先表征出来。并且,语境在本质上是动态的和整体论的。在缺乏整体性知识的前提下,这种以静态知识表征为主要特征的分解方法在文本语义理解方面一直无法突破单句的限制,从而实现对句群甚至语篇的理解。即使在单句范围内,对句子语义理解的正确率也很低。这也是我们在使用一些搜索引擎或翻译软件时,处理结果一直不能如人所愿的根本原因。

第二,句法、语义以及语用平面的划界问题是分解方法难以突破的一大难题根据现代符号学和语言学理论的观点,一般认为,语言可以分为句法、语义和语用三个平面。莫里斯指出,“句法学是对符号间的形式关系的研究”,“语义学是对符号和它所标示的对象间关系的研究”,而“语用学是对符号和解释者间关系的研究”①。后来,他依照行为理论进一步扩张了语用学的研究范围,认为“语用学研究符号之来源、使用和效果”,“语义学研究符号在全部表述方式中的意义”②。莫里斯给出的这种纲领式划界观,对后来的语言学、语言哲学等领域产生了深刻影响。

对基于形式系统的自然语言处理来说,句法、语义、语用平面之间的划界问题并不像语言学或哲学中那么容易。虽然在某种程度上我们可以分别从句法、语义和语用的平面来对自然语言进行语义分析,然而,语义理解在本质上是三个平面共同作用的结果。可以说,三个平面理论本身就是用一种分解的思想来审视自然语言。在以形式系统为基础的自然语言处理中,分解方法无法突破三个平面之间的划界问题,实现对语言意义的整体性理解。

无论是层次性的处理方法,还是三个平面的划界问题,都以基于分解的思想方法为指导。这成为自然语言处理在语义问题上难以逾越的方法性障碍。只有厘清造成分解方法瓶颈的原因所在,才有可能找到解决瓶颈问题的新方法。

2.造成分解方法瓶颈的原因

客观地说,在自然语言处理的各个层次中,每个层次语义的确定无不由语境所决定。然而,在整体性语义理解问题上,“语境”可以起到什么样的作用以及如何起作用,是一个尚待解决的问题。我们认为,在探索分解方法的过程中,最关键的是要厘清:在自然语言处理进入语义阶段之后,当代人工智能表征的分解方法是否依然合理有效。只有将这个问题搞清楚了,才能进一步对各个层次的语境问题进行深入分析,找到分解方法的瓶颈所在,进而探讨如何构建一个更为合理的解决模式。

其一,计算机的形式化体系决定了人工智能表征必然要以分解方法为基础。

人工智能所依托的计算机是一个纯粹的形式系统,建立在这一形式系统之上的计算机语言,从早期第一代机器语言到第二代汇编语言、第三代高级语言,直至目前的面向对象的语言,都必然以系统的形式化表征为主要特征。人工智能要想模拟人类智能,也必然以形式化的描述方式来处理语言、声音、图像等各种信息。在人工智能中,“形式化”意味着机器可读。各种信息必须首先以形式化的方式表征出来,才能被机器读取从而实现进一步的智能化处理。这就出现了一个非常关键的问题:以什么样的形式化方法来表征信息?

在这一问题上,乔姆斯基的三个语法模式理论,为自然语言处理的产生与发展做出了巨大贡献。一开始,乔姆斯基在图灵机基础上提出了“有限状态语法”,认为“有限状态语法是一种最简单的语法,它用一些有限的装置就可以产生无限多的句子”①。这是一种不受语境影响的语法规则。但由于这种语法模式只能处理特定类型且长度有限的句子,很快就不能适应自然语言处理的需要。接下来提出的“短语结构语法”基于对句子进行直接的结构分解,这成为自然语言处理中句子层次结构划分的重要理论基础。而后来的“转换生成语法”作为短语结构语法的替代物,“提供了一套进一步的转换规则,用于表明一切复杂的句子都是由简单的成分构成的。……转换规则表明,任何不同的语法形式都可以转换为某种给定的语法形式”②。形式计算系统的本质特征以及乔姆斯基三个语法模式理论的奠基性工作,直接确立了分解思想在人工智能表征方法中的指导地位。

其二,句子层次结构是分解方法在人工智能表征中的一个主要特征,也是造成分解方法瓶颈的重要原因。

从上述分析可以看出,分解方法是自然语言处理智能化发展过程中的必由之路。受乔姆斯基三个语法模式理论影响,对句子进行逐层分解成为自然语言形式处理的主要模式。

在人机交互系统中,早期自然语言处理在运用有限词汇与人会话时,分解方法表现出良好的适用性。然而,当把这类系统的处理范围拓展到充满不确定性的真实语境中时,就出现了很多难以克服的问题。其中,最关键的问题在于缺乏相应的常识知识来对句子的语义进行判断。因此,在自然语言处理的语形阶段发展相对成熟之后,就开始逐步向语义处理阶段迈进。

在这一发展过程中,对句子进行层次分解通常从句法分析入手。自然语言处理中最常见的是将句子分解为剖析树(parse trees),其分析策略主要包括自顶向下、自底向上以及左角分析法等。其中,短语规则指出了从词到短语、从短语到句子的结合规律。也就是说,词可以看作句子中最小的语法成分,词与词之间通过一定的组成关系构成短语,各种类型的短语又可以根据特定的组合关系构成更大的短语成分,最后,各种短语按照句法语义构成规则组成完整的句子。

在上述分解过程中,要想完成对语义的正确理解,所涉及的每一步几乎都要涉及语义知识或语境知识。从技术层面来看,其主要的研究难点在于:

(1)在分词过程中,印欧语系的文字在书写上单词与单词之间有间隔,很容易实现对单词的自动识别。但对于像中文、日文、泰文等语言文字来说,在书写上没有单词之间的分界线。而句子剖析树的生成是以对单词的正确识别为基础的,这直接影响到智能系统对句法、语义、甚至语用的后续处理。如果分词发生错误,则不可能产生正确的语义理解,后续工作就没有任何意义。因此,分词是实现文本语义理解的第一步。在书写方式上没有单词分界线的语言中,分词对于计算机来说是一个非常困难的工作。因为在这类语言中,对于“词”的概念以及词的具体界定通常很难达成一致认识,普通人的语感与语言学标准之间常常有较大差异。并且,应用目的不同会造成对分词单位认识上的不同。①所以,很多分词系统往往从工程需要的角度出发制定相应的分词规范,从而解决信息处理用的“词”的划界问题。而自动分词系统很难将所有句子的单词都分割正确,句子中的某个字应该与前面的字组成词还是和后面的字组成词,往往需要根据整个句子中前后词语间的语义关系来确定。对于不具备人类认知能力的计算机来说,对这类语言进行分词常常会出现错误,通常都需要在自动分词的基础上耗费大量人工进一步校正。

(2)在分词基础上,需要通过词性标注才能进一步生成短语。词性标注难的根本原因在于词的兼类现象,即一个词具有多个词性。在一段文字中,一个词只能有一个意义,因而也只能有一个词性。想要对句子语义有一个正确的理解,就必须先正确判断每个词的词性。而在词性的确定过程中,一旦出现歧义现象,就需要引入相应的语义知识或语境知识。

(3)很多字词不止有一个义项,在自然语言处理中必须通过词义消歧从众多的义项中选出最为适合的一个。而词义消歧的选择过程也需要引入足够的语义知识或语境知识来协助判断。

(4)自然语言的语法通常模棱两可,对一个句子剖析可能会产生多棵剖析树。当一个句子可以分解为两个以上的剖析树时,这个句子就会产生句法歧义。而句法分析的主要目标就是消除句法歧义。此时,系统就必须根据相关的语义知识或语境知识,从中选出最为适合的一棵剖析树,从而达到消解歧义的目的。

上述分析只是自然语言处理句子结构时遇到的几个特点较为显著的问题。其实,在诸如语音分割、段落划分、主题划分等众多领域,都面临着同样的问题。以分解方法为基础的自然语言处理,要解决在每个层次中遇到的歧义问题,都需要更大范围的语义知识或语境知识。而分解方法在引入语义知识或语境知识的过程中,最大的弊病在于,这些协助语义判断的知识都是针对某个单词或短语引入的,在缺乏对句子整体意义甚至语篇语境理解的情况下,所引入的语义或语境知识所能发挥的作用非常有限。正如语境原则(context principle)所揭示的:“一个词只有在句子的语境中才有意义。”①而一个表达式也只有处于一个更大范围的语境中,才能确定其意义。因此,分解方法的本质特征决定了其很难突破自身的局限性,形成对句子或篇章的整体性认知。由此可以推断,缺乏整体性语义知识和语境知识的分解方法,在自然语言处理的语义阶段,很难实现较好的语义处理效果。

其三,三个平面的划界理论使分解方法难以逾越语义理解的障碍。

莫里斯对句法、语义、语用平面的划分在不同的语言领域都产生了极大影响。随着研究的深入,人们发现,三个平面在不同语言的语义理解中作用不同,存在句法优先、语义优先或者语用优先等不同的语法体系。然而,无论是在哪个平面优先的语法体系中,以分解为特征的句法处理都是自然语言处理的基础。这是由计算机的形式特性决定的。因此,在所有的自然语言处理系统中,对语言意义的剖析都从形式分析开始。

(1)语形平面划界的问题分析

由于计算机在处理自然语言时,很难像人一样分析句子,因此,需要在汲取现有语言学研究成果的基础上,建立一套计算机可以“读懂”的句法规则。句法规则的确立,就是要为计算机处理自然语言提供一个确切的句法描述方式,使计算机“学会”鉴别句子中的各种成分。然而,由于自然语言的极端复杂性,这种句法规则的建立并不能使计算机百分之百正确地分析句子成分。很多在语言学中简单的成分界定问题,对于计算机来说就变得非常困难。因此,在制定句法规则的过程中,其最大特征就在于可执行性。一个机器无法执行的句法规则,哪怕其制定的再完美,也没有用。更确切地说,对于自然语言处理来说,所谓的句法平面更注重对句子结构形式化分析的实现,从而为进一步的语义理解提供一个形式化基础。

制定自然语言处理的句法规则时,由于句法平面、语义平面以及语用平面在不同语系中的优先程度不同,对于句法分解方式的具体处理也不尽相同。还是以上面提到的印欧语言与汉语的区别为例:

在印欧语言中,句法虽然在某种程度上受到语义以及语用因素的制约,但仍有较大的独立性。事实上,在西方语言学的发展过程中,语言学家们主要关注于语言的形式特征,句法在很长一段时期内都是研究重点。直到20世纪60年代以后,语言学家们才开始系统研究语义问题。这是在深刻认识到仅仅依靠句法分析无法解决语义问题之后,语言学发展的必然趋势。鉴于印欧语言句法优先的本质特征以及丰富的句法学研究成果,其在人工智能表征的形式化处理过程中比汉语具有更大优势,句法平面的划界问题也较为容易。尽管如此,印欧语言的自然语言处理要想完全脱离语义及语用因素来处理句法问题,在实践中也存在很多困难。例如,在句子分割问题上,要判断“Mr.Smith is a doctor.”是一句话还是两句话,仅仅根据句法的形式符号标记“.”作为判据,系统就会误认为这是两句话。此时,只有借助于语义知识,系统才会做出正确判断。类似问题在印欧语言的自然语言处理系统中大量存在。从句法研究向语义研究的转向充分说明,将句法平面完全割裂开来无法解决对语言意义的理解问题。

而在汉语中,虽然计算机对句法平面的划界是必要的,但三个平面之间的界限则相对比较模糊,很难明确区分开来,句法平面的界定也因此要困难得多。原因就在于“汉语的句法独立性太弱,难以建立独立于语义、语用而相对自主的句法体系”①。从上述对句子层次结构的分析中可以看出,由于汉语文本是按句连写的,并且汉语自身的特性决定了不可能用语法功能单一的标准对词类进行划分,需要掺杂各种意义标准。这就使得汉语的句法平面从一开始就和语义、语用平面纠缠在一起。对于缺乏各个层次语义知识和语境知识的计算机来说,要想将汉语的句法平面与语义、语用平面完全区分开来非常困难,甚至几乎不可能。这也是汉语自然语言处理系统在语义理解问题上举步维艰的根本所在。

从上述分析可以看出,在句法平面的划界问题上,虽然印欧语言与汉语之间存在着较大差别,但无论在哪种语言中,要想将句法平面完全割裂开来单独加以研究,进而解决自然语言的语义理解都非常困难。而分解方法恰恰是将语形平面割裂出来,逐层分解为更小的语言单位,才能实现对自然语言意义的理解。在逐层分解过程中,每一层级语形单位的界定往往需要相关的语义知识和语用知识。而这又使三个平面在每个层级都紧紧交织在一起。在实际应用系统中,即便是印欧语系,在缺乏相关语义知识和语用知识的自然语言处理系统中,其处理结果的正确率也非常低。在缺乏整体性语义知识的前提下,句法平面的划界问题成为分解方法难以克服的障碍。

(2)语义平面与语用平面的划界问题

自然语言处理的最终目的就是实现计算机对自然语言语义的正确理解。建立在分解思想基础上的自然语言处理方法认为,只要掌握了每个词的意义以及词与词之间的语法关系,就能够掌握句子的意义。也就是说,对句子意义的理解以对组成句子的每个词语的意义理解为基础。因此,在自然语言处理系统中,词义在语义理解系统中占有突出位置。一些句子中的核心词甚至直接就可以表明句子的意思。机器对词语意义的“理解”来自机器词典。机器词典描述了每个词的词法、句法、语义甚至是语用知识。如果不知道句子中每个词的相关知识,就无法对句子级别的语义进行“理解”。而一个具有多个义项的词在其所在句子中应该取哪个意思,仅仅依靠机器词典并不能完成。这是因为,义项中所蕴含的意义具有概括性和稳定性,不包括词语在特定语境中可能出现的具体的、临时的意义。并且,一个多义词中各义项所蕴含的语义之间通常也存在某种程度的交叉。在一个具体语境中,某个词的语义与该词的哪个义项最为接近,往往很难确定。无论是印欧语言还是汉语,很多情况下,都需要借助该词所在的更大范围的语境甚至语用知识,才能形成对一个多义词义项的正确选择。由此,语义平面就很难和语用平面完全割裂开来。而这也是现阶段分解方法无法跨越的瓶颈所在。可以肯定地说,几乎所有的自然语言处理系统都不能很好地完成这一工作,这也是我们在使用一些翻译软件时,翻译效果非常不理想的根本原因。

一般地讲,自然语言处理不能将语义平面孤立起来进行研究,因为语义是在语境中产生的,并通过语法形式来体现。语用平面是语义平面的延伸,在自然语言处理中引入语用因素,是为了更好处理语义问题。实际上,语用只是指明了一个阐明语义的角度问题。随着研究的不断深入,人们发现在自然语言处理中,语义平面和语用平面存在着明显的交叉现象。因为语用本身就是为研究语义服务的,所不同的是语用研究的语义是人在语言使用中产生的意义。而人对语言的使用必然又会涉及语境问题。因此,语义和语用在语境的基础上存在着相当程度的关联性。

正如K.M.Jaszczolt指出的:“语义学与语用学之间的最大区别在于,语境因素的参与程度不同。”①而“参与程度”是一个模糊概念,这意味着二者之间很难截然分开。自然语言处理想要很好地解决语义问题,就很难将语义与语用以相对分离的方式进行研究。而要实现二者的统一,只有借助整体性的语境方法。但这并不意味着对语义和语用的消解,而是将二者作为要素,与语形一起融入整体性的语境处理中。而这正是分解方法所缺失的。

3.分解方法瓶颈解决的可能途径——整体性语境构建方法的提出

从上述分析可知,分解方法是建立在形式系统之上的计算机处理人工智能表征的必然选择。多年来,自然语言处理取得的成就表明,用分解方法来处理自然语言的思想是正确的,这也是人工智能表征所取得的成就。每个学科的发展都有其历史必然性,在自然语言处理的早期阶段就谈整体性方法,是不切实际的。早期阶段的研究只有通过分解的方式,才有可能实现对自然语言的形式化处理。而今天在自然语言处理经过半个多世纪的发展,基于分解的思想方法取得丰硕研究成果而不能继续前行之际,我们就应该反思方法的变革问题了。

目前,句子层次结构和三个平面的划界,是分解方法在实现自然语言语义理解过程中所不能克服的瓶颈问题。尽管在著名的框架网络在建工程中,菲尔墨在词语的语义理解中一定程度上引入了语境描写技术,但这是一种自下而上基于分解思想的局部语境描写,很难突破单句的限制实现对更大范围语言文本的意义理解。如果仅仅针对单词级别的语义理解运用语境描写技术,而不是从自上而下的整体角度去加以构建,势必造成自然语言处理不能完成对段落或篇章级别语言文本的整体性语义理解。此外,亦很难提高需要篇章级别语境知识才能判定的单句语义理解的正确率。自然语言处理在语义处理阶段难以取得突破性进展的根本原因正在于此。因此,有必要在已有的基于分解方法的局部语境描写基础上,构建整体性的语境描写框架。

在构建整体性语境描写框架的过程中,首先应该明确的是,整体性语境构建是建立在分解基础上的语境重构。大规模数据库时代,基于统计和语形匹配搜索的计算模式,要求自然语言处理首先必须是分解的。分解是形式系统处理自然语言的必然选择,整体性语境构建方法要想在形式系统上实现,首先必须是基于分解的。可见,分解方法是整体性语境构建方法的基础,而整体性语境构建方法是分解方法的必然发展趋势,二者之间是一脉相承而非矛盾的关系。

其次,整体性语境构建方法所要解决的主要问题是,在认识到语形、语义、语用三个平面无法完全割裂开来研究的前提下,如何构建基于语境的新的表征方式来实现三个平面的统一。从上述对印欧语系以及汉语的对比分析中可知,无论是哪个平面优先的语言,最大的共同点就在于三个平面可以在语境的基础上达成一致。由此,要实现对自然语言语义的理解,必然要建立基于整体性语境的描写框架。这种整体性语境的构建不仅需要各个层次自下而上的基于词汇的语境常识知识,更需要自上而下的段落或篇章级别的语境描写框架。这就要求分解方法与整体性语境构建方法相结合,二者的互补是实现整体性语义理解的必要基础。

菲尔墨的框架网络从自下而上的分解方法角度做出了有益探索。框架网络试图用“框架”(frame)将具有共同认知结构的词语以描写的方式在场景中统一起来,突破静态语境的局限,实现对人类动态语境甚至社会语境的描写。这为整体性语境理解提供了必要的词一级的语义理解基础。然而,语境描写技术的引入并不意味着就实现了整体性语境构建方法,框架网络工程只是迈出了第一步。更重要的是,要使自然语言处理突破单句的限制,实现对段落和篇章级别的语义理解。这才是整体性语境构建方法要解决的核心问题。

常识知识工程的失败表明,要在全部自然语言范围内实现整体性语境构建方法,在较长的一段时期内还不太可能。然而,我们可以尝试在篇章结构相似度较强的特定领域突破解构主义自下而上的研究路径,实现自上而下的基于篇章语境描写的框架技术。基于篇章的语境描写框架,可以使计算机首先对整篇文章有一个整体上的语义理解,进而再结合词一级的框架语义描写对文章中句子的意义进行补充和修正。①这就实现了整体性语境构建方法与分解方法的有机融合。而这也是解决人工智能表征分解方法瓶颈的关键所在。

(二)自然语言处理的语用化发展趋势

“智能”问题是当代计算机和认知科学普遍关注的焦点之一。但当前对人类认知与智能机制方面的认识障碍,使得现阶段的研究出现某种程度的停滞,难以实现理论上的突破。由此,作为实现人与计算机之间用自然语言进行有效通信的核心技术之一,自然语言处理成为研究开发新一代智能计算机的前提和先决条件,主要解决如何在语义层面上对输入的内容进行匹配,并同时具备一定的常识知识和推理能力。这一技术同时涉及计算机科学、语言学、心理学、哲学等多门学科,只有在多学科交叉的领域范围内才有可能获得理论上的突破。尤其是在核心的语义分析及智能推理方面,自然语言处理一直深受相关哲学理论和语言学理论的影响,因此,有必要厘清其发展的关键所在,分析其发展趋势及可能带来的变革。

1.自然语言处理的发展瓶颈

自然语言处理中,传统的知识库只提供单个词语的概念意义或基于真值的形式逻辑来描写语义,这对于实现自然语言处理的智能化远远不够。在经历了语形处理阶段之后,自然语言处理迈向了语义分析阶段。从语形到语义的发展,是语形处理无法满足精确性要求的结果。在语形处理阶段,程序根据用户输入的自然语言进行关键词比对(keywordmatch),这是一种局限于字词变化以及句法结构的语形匹配技术。它对于被输入的自然语言的概念语义并无确切掌握,处理结果往往精确度不够,常常会出现大量语义不符的垃圾结果或遗漏很多语义相同而语形不同的有用结果。

有鉴于此,人们希望计算机能够通过语义分析来处理信息,从而提供更加精确、更能接近人类语义处理模式的服务。为此,必须探索人脑理解语言的机制,从认知的角度描写语言知识,重视对语言理解的认知加工过程及形式化问题。但是,因为词汇句法方面的问题长期没有得到有效解决,要实现提供人工智能推理所需的知识库并不现实。由此,自然语言处理领域中,开始倾向于面向真实语料的大规模语义知识库的构建工程,这是在经验主义基础上汲取了理性主义优点后,所形成的一种基于功能主义的方法。它为自然语言处理提供了一条现实可行的探索道路,是解决智能问题的必然选择。

但自然语言处理领域一直缺乏统一的理论基础。思维语言(Lan-guage of Thought,LOT)框架与认知科学框架(即概念的联结论构造)作为两种对立的指导方法,长期影响着自然语言处理的发展路径。①对于认知科学和人工智能来说,无论哪一种指导理论,都建立在计算种类、表述载体种类、表述内容种类以及心理学解释种类这四个分析层次之上。并且,这些层次之间并不相互独立,“每一层次的分析都制约着相邻层次的分析”①。建立在联结主义计算基础之上的认知科学框架,以整体论的神经科学为指导,把计算机看作建立大脑模型的手段,试图用计算机模拟神经元的相互作用,建构非概念的表述载体与内容。但由于神经科学尚处于初级阶段且应用范围相对狭窄,使其发展受到了很大制约,至今尚未形成一个有影响力的处理自然语言的模式。

而建立在符号主义计算基础之上的思维语言框架,则以哲学中的理性主义和还原论为指导,并借鉴了语言哲学的研究成果。它把计算机看作是操作思想符号的系统,试图通过句法和语义等形式表述系统来表征世界。由于冯·诺伊曼机的普遍应用及其形式表述系统与自然语言的接近性,使得以思维语言框架为代表的、建立在经典的句法/语义表述理论之上的一批自然语言处理理论和技术得到了广泛发展与应用。在人工智能领域,米勒(George.A.Miller)主持的词网(Word Net)和菲尔

墨(C.Fillmore)主持的框架网络(Frame Net)工程最为著名,也最具代表性。二者均采用“经验主义”语义建模的研究思路,主要以构建大规模语料库为研究目标,进而支持建立在其上的人工智能程序。然而,由于二者表述载体、表述内容以及心理学解释的不同,造成它们在处理自然语言的不同应用方面都各有优劣,但非常具有互补性。它们为预测未来自然语言处理的发展趋势提供了基础。从词网和框架网络等大型语义知识库工程中可以看出,现阶段自然语言处理领域的问题集中表现为:

首先,对自然语言的处理一直无法突破单句的界限,进而阻碍了对段落理解和语篇理解的研究。主要表现在对词和单句的分析虽然涉及了语境和语用,但无法将这些方法扩展到对段落和篇章所进行的语义分析中,这是语义分析阶段瓶颈难以突破的关键所在。

其次,同句法范畴比起来,语义范畴一直都不太容易形成比较统一的意见,有其相对性的一面。“层级分类结构”(hierarchy)的适用范围、人类认知的多角度性及其造成的层级分类的主观性,导致了语义概念的不确定性、语义知识的相对性以及语义范畴的模糊性。

最后,目前语义知识库记录的内容以静态语义关系知识为主,而对于基于语义关系约束的形式变换规则知识却研究甚少,这使得自然语言处理在动态交互过程中很难发挥应有的作用。

因此,厘清以上问题产生的原因,是发展自然语言处理所需的下一代大型语义知识库迫切需要解决的首要前提。

2.造成自然语言处理瓶颈的原因分析

社会的信息化进程对计算机智能化提出了强烈要求。然而,自然语言处理作为计算机智能的核心技术,其发展速度相当缓慢,至今尚未取得重大突破。要解决存在于自然语言处理中的上述问题,必然要分析造成这些问题的瓶颈所在,进而才有可能着手解决问题。我们认为,造成自然语言处理发展缓慢的原因主要有以下几点:

(1)自然语言处理的前提假设决定了自然语言处理瓶颈出现的必然性。对于自然语言处理,无论语言学界还是计算机界,都建立在以下假设之上:人类对语言的分析和理解是一个层次化的过程,自然语言在人脑的输入和输出是一个解构和构造的过程,并且,在这个过程中,语言的词汇可以被分离出来加以专门研究。这是一种建立在还原论基础上的前提假设。

自然语言内部是一个层次化的结构,一般可以分为词法分析、句法分析和语义分析等三个层次。这些层次之间互相影响和互相制约,最终从整体上解决对自然语言的处理问题。从自然语言的具体构成来看,一个句子由词素、词、短语、从句等构成,其中每个层次都受到语法规则的约束,而层次关系的实现则直接体现在自然语言句子的构成上。由此,计算机对自然语言进行处理也应当是一个层次化的过程。并且,根据语言的构成规则,在实现人与计算机之间的自然语言通信过程中,计算机除了需要理解给定的自然语言文本,还必须能以自然语言文本的方式来表达处理结果。

因此,对自然语言进行的处理可以分解为:针对输入的自然语言理解和针对输出的自然语言生成两个过程。在输入过程中,系统通过解构文本实现对自然语言的理解;在输出过程中,系统又通过构造生成完整的句子来表达处理结果。这种前提假设从一开始就决定了自然语言处理必须先从分词、句法等语形处理方式入手,而后再通过语义及语用分析来完成对文本意义的理解。然而,目前相关科学的发展,尚不能确定人类在使用语言的过程中是否存在着这种层次关系。不过这种对语言层次的划分,却直接决定了自然语言处理,必然要经历从对词法和句法所进行的语形分析阶段向语义分析阶段发展的路径。

(2)在缺乏词一级的语义知识库的前提下,现阶段的语义分析系统更多程度上主要依赖于统计学等浅层方法,有待于从理论上和实践上进一步完善和突破。词网和框架网络等大型语义知识库工程也主要以词语为描述对象,致力于构建一个词一级的、具有一定层级关系的抽象化的语义网络,无法从理论上突破句法对语义的限制,从而进行段落或篇章一级的语义分析。总的来说,这一现象始终贯穿于自然语言处理发展的两个阶段中:

第一阶段主要建立在对词类和词序分析的基础之上。20世纪40年代末开展的机器翻译试验,大多采用特殊的格式系统来实现人机对话。到了60年代,乔姆斯基的转换生成语法得到广泛认可。在这一理论的基础上,开发了一批语言处理系统。基于层次化的前提假设,自然语言处理从一开始就致力于对语言形式的处理,分析过程中以统计方法为主,主要在分词基础上对单个语词进行处理。这些基于语形规则的分析方法,可以称之为自然语言处理中的“理性主义”。

第二阶段则开始引进语义甚至语用和语境的分析,构建了一批大规模语义知识库,试图抛开对统计方法的依赖,采用了与“理性主义”相对的“经验主义”研究思路。20世纪70年代以后,随着认知科学的发展,人们认识到转换生成语法缺少表示语义知识的手段,因而相继提出了语义网络、概念依存理论、格语法等语义表征理论,试图将句法与语义、语境相结合,逐步实现由语形处理向语义处理的转变。但仍然不能摆脱句法形式的限定,无法灵活地处理自然语言。到了80年代,一批新的语法理论脱颖而出,主要通过对单句中核心词的分析,进而完成对整个单句的语义分析。①但是,在缺乏词一级的语义知识库的前提下,要实现对自然语言的语义分析是不可能的。此外,造成自然语言处理困难的根本原因,在于自然语言的语形与其语义之间是一种多对多的关系,从而造成歧义现象广泛存在。这就要求计算机进行大量的基于常识知识的推理,由此给语言学的研究带来了巨大困难,致使自然语言处理在大规模真实文本的系统研制方面成绩并不显著。已研制出的一些系统大多是小规模的、研究性的演示系统,远远不能满足实用的要求。因此,构建基于真实语料的大规模语义知识库(或语义词典),就成为实现自然语言语义处理的必要条件。

基于以上认识,20世纪90年代以来,自然语言处理中的概率和约束问题,引发了新一轮对语言理论问题的思考,出现了一批有实用价值的大型语义知识库。这些大型语义知识库在应用领域取得了一定的成绩,但仍然无法突破单句的限制,过多地依赖于统计学方法,这也是现阶段自然语言处理中最主要的瓶颈之一。然而,从理论方法角度看,基于规则的“理性主义”方法,虽然一定程度上制约了建立在“经验主义”基础之上的语义知识库的发展,但是日益出现在“经验主义”方法中的不足,也需要依靠“理性主义”的方法来弥补,两类方法的融合也正是当前自然语言处理发展的趋势。②

(3)目前的大型语义知识库大都构建在以经验主义为基础的方法论之上,具有很大的主观性和不确定性。这在一定程度上会导致语义分析过程中出现不确定现象。以国际上最著名的大型语义知识库词网和框架网络为例:

框架网络以菲尔墨的框架语义学为理论基础,以经验为手段来分析和组织概念。它强调概念与意义对人的经验的依赖,将词语意义跟认知结构或框架相连,通过构建语义框架,寻找语言和人类经验之间的紧密关系,从而有效地把人的理解捕获到语义结构中。它主要采取的是机会主义自底向上的方法,有一定的理论指导但没有明确的框架体系。构成框架网络语义知识库的基本语义框架,是从分析者的直觉判断开始的,一个框架的确立需要经过一些认识上的反复过程。由于分析者与分析者之间、分析者与使用者之间的知识背景不同,他们的思维方式也不可能完全相同,因而对问题的理解和认识也会有所不同。由此造成框架网络在一定程度上必然存在着主观性和不确定性,这是构建经验主义语义知识库所不能避免的。①

词网最初源自对词汇知识表示的心理学兴趣。它通过同义词集来表示概念,再由概念间的多种语义关系形成概念网络来构建其知识本体。这是一个高度形式化的、通用的、跨语言的知识表示方法。其目标在于不断地抽象,在语言认知或者纯粹的语言学理论研究中,找到一种跨越不同语言的语法通则。其最大特点是把词语之间简单的同义、同类关系放在非常重要的位置,强调通用、强势的概念体系,从而是一种基于逻辑的理性原则,可视为自然语言处理中的“理性主义”。可见,同义概念和层级分类组织方式,对于词网来说非常重要。然而,对于同义词的衡量标准以及层级的划分,基本上是人为完成的,其同义概念并不能在任何语境中都具有可替换性,否则语言中的同义词就太少了。因此,人为导致的主观性以及由此造成的不确定性,是基于“理性主义”的词网也不能避免的。①

从以上分析可以看出,以经验主义为基础的自然语言语义范畴,其难以形成统一意见的根本原因就在于:①并不是所有的事物都适合放在“层级分类结构”中来认识,硬要将某些概念定位到一个语义分类体系中,常常会感到捉襟见肘。人们到底是用什么样的结构去认识这些事物,还需要进一步从人类认知的角度去探索。②由于人们认知角度的不同,即便使用层级分类结构的方法,这种分类也不是唯一的。很多事物可以同时属于多个类别,人们可以从多个角度去构造关于某个事物的不同的层级分类结构。类似于词网这种在一个语义知识工程中,为“本体”做出的语义层级分类,必然会产生语义范畴的相对性,从而造成层级分类的不确定性。这种语义范畴的相对性表现在很多方面,而这些方面又常常交织在一起,体现了语义概念的不确定性。

认识到语义知识的这种相对性,有助于我们树立对一个语义知识体系的“实用主义”评价观,即一个“语义知识体系”的好坏,根本上应该取决于它在某个应用领域中是否够用、好用。从这个意义上说,认识语义范畴最好的办法,就是去深入了解语义知识在自然语言处理中能够发挥什么作用以及如何发挥作用。虽然人们对于语义范畴的界定相对模糊,但其目标却是为了比较严格和精确的“形式变换”提供支持和服务。为此,我们有必要重新认识语义范畴,将其直接建立在“形式特征”的基础之上,从而更好地为自然语言处理服务。

(4)自然语言作为思想交流工具,不能仅仅局限于静止状态的文字交流。随着互联网的发展,其创始人提姆·伯纳斯-李(Tim Berners-

Lee)于2000年在《科学美国人》中提出“语义网”(Semantic Web)的概念和体系结构。他希望建立一个以“本体”为基础的、具有语义特征的智能互联网,提供动态的、个性化的、主动的服务。也就是要让具有智能的计算机程序在互联网这种动态开放的无限网络环境中运作,从而实现基于Web的个性化和智能化应用,使得人与计算机之间可以用自然语言顺畅地交流,帮助人类更好地完成工作。基于此种目的,即使是对静态文本进行篇章级别的语义分析,也还远远不能达到信息服务的要求。在更多领域,用户与系统之间以及系统与系统之间,还需要进行大量的实时交流。作为交流的一方,无论是提问、回答还是讨论,都是在双方言语的不断变化过程中完成的。在这一过程中,双方面临的语境是不断变化着的,而每一方的语义应该是连贯的,并且双方都不可能在获得对方的全部言语之后才进行语义分析。这就要求作为交流一方的计算机系统,可以根据交流的进行实时地对双方的语义内容进行新的分析和推理,但现有理论根本无法达到这一点。在语法和句法问题的局限下,人们还不曾探讨动态交互过程中利用语义方法来实现自然语言交流的问题。

因此,突破单句的限制,根据整个动态交互过程中语义和语境的变化情况,对用户实时输入的语句进行处理并生成相应的结果,是实现语义网的必然要求。

3.自然语言处理的发展趋势

从智能互联网的总体目标来看,要实现语义网,就必须首先解决“语义表达问题,即如何使得网络中的各种信息、数据等资源能够有效地表达并被理解,使得它们成为计算机所具有的‘知识’,进而能够被计算机所共享和处理”①。要达到上述对智能的需求,自然语言处理就不能停留在现阶段仅仅对语言形式进行处理的水平上,只有深入到语义和语用层面,才有可能使自然语言处理具有智能色彩。“当前,内容处理已成为网络浏览检索、软件集成(Web服务)、网格等计算机应用的瓶颈,语义处理也是下一代操作系统的核心技术。形形色色的软件技术最终都卡在语义上,语义处理已成为需要突破的关键技术。人工智能、模式识别等技术已有相当进展,但内容处理还处于重大技术突破的前夜,究竟什么时候能真正取得突破性的进展现在还难以预见”②。可见,语义表达问题,已成为现阶段自然语言处理中最核心的问题之一,自然语言处理从语形学到语义学的转向,业已成为认知科学领域研究的新焦点。

提姆·伯纳斯-李的语义网概念,便是在此背景下诞生出来的一个远景。然而,语义学理论本身的局限性,决定了语义网不可能完全满足未来人们对网络的需求。由于自然语言本身具有的不确定性,使得对单个语句的语义分析,无法实现对用户意图的整体性理解。只有借助于建立在语形和语义基础上的语用思想,才能实现更高层次的智能化服务。因此,构建基于自然语言处理的语用网(the pragmatic web)理论体系,将有可能成为下一阶段智能互联网的核心技术之一。这就使得自然语言处理技术本身的语用化转向成了必要和可能。在这一思想的指导下,我们认为,未来自然语言处理很可能在以下方面有所突破:

(1)从整体到局部的思想转变,将是下一阶段自然语言处理能否取得突破的关键所在。

自然语言处理中大量涉及常识知识问题。20世纪70年代以后,专家系统等人工智能技术的发展,使研究者们逐步认识到常识知识在智能系统中的重要作用,但要通过构建海量常识知识库来实现人工智能是不现实的。在没有搞清楚人类是如何组织常识知识的前提下,如何组织如此庞大的海量常识知识是难以跨越的鸿沟。从认识论的角度来看,常识知识的形式化是人工智能的核心任务,其特点是基于某个透视域对世界进行抽象描述,具有不完全性和不确定性。从本体论的角度来看,常识知识表述形式是对世界的近似表征,必然会忽略某些方面,并且关注的是世界的本质内容而非语言形式,因此所构建的本体具有一定的相对性。从方法论的角度来看,常识知识库将常识知识形式化地表征为一类数据结构,并在其上进行常识推理等运算,且由于应用的可实现性而专注于对某些特定领域知识的描述,具有某种程度的随意性。从现有的常识知识库来看,普遍关注常识知识的表征形式而常常忽略其本质内容,这也是造成语义网研究进度缓慢的原因之一。

基于上述考虑,需要在构建大规模语义知识库的过程中,针对某些有实用价值且应用相对普遍的领域进行构建工作,避免构建大而全的海量常识知识库,从而率先实现在特定应用领域的突破。这一从整体到局部的思想转变,已引起某些人工智能专家的注意,它将是下一阶段自然语言处理能否取得突破的关键所在。

从目前各大型语义知识库的构建工程中可以看出,试图完成所有常识知识的语义描述是不可能的,要想有实用价值,只有针对特定领域才有可能有所突破。以汉语框架语义知识库(Chinese Frame Net,简称

CFN)为例,需要做的不是描述汉语全部词语的语义框架,而是着力开发针对一定应用领域的语义框架和应用系统,诸如网上购书系统、旅游问答系统、天气预报系统、法律法规系统等多个应用领域。这些领域的共同特点是有很强的应用价值,并且领域相关的词汇量不是很大,可以在较短的时间内完成研发工作并投入使用,获得可观的社会效益。

(2)尝试在特定领域突破自下而上的经验主义研究路径,实现自上而下的基于篇章语境描写的框架技术。

通过对旅游问答系统、网上购书系统、医疗系统、行政系统及法律法规系统中的真实语料进行词元提取操作,可以发现,在特定领域数据库中,某类词或短语在文章中出现的频率较其他类别的词语高许多,并且它们在文章中的位置相对固定,用法也较为一致。更为可喜的是,这些领域数据库中的文章在体裁、结构甚至表述方法上都有很强的相似性。由此可以大胆提出,完全有可能突破现有的基于词语来分析单句语义的描写方式,转而通过对高频词与核心词的提取,直接针对一些特殊领域的数据库,构建基于篇章的语境描写框架。这就使计算机在对文章中具体的句子进行语义分析之前,首先对整篇文章有一个语义上的整体认识,构建一个篇章级别的语境,进而再通过对具体语句的语义分析,纠正并完善对该篇文章的意义理解。

应当看到,虽然这是一种机会主义的分析方法,但它突破了原有的从词汇开始进行语义分析的自下而上的技术路线。因为它采取了对整篇文章自上向下的分析视角,排除了在单个词语分析过程中不符合整篇文章意义的歧义内容,使文章中的句子之间产生连贯的语义关系。在此基础之上进行的推理势必可以达到更好的理解效果。现阶段,无论从语言学方面还是计算机技术方面,我们都不可能实现针对某种语言的全部应用构造篇章级别的理解框架。只有在特定的应用领域,才有可能提前实现更具智能化的全文机器翻译。这一思路在自然语言处理的很多特定领域中,都有着广泛的应用前景,可以为许多公共领域实现更具智能化的信息提供服务。

(3)动态语义分析是亟待解决的关键性难题,也是下一阶段自然语言处理的重要发展方向之一。

无论是智能互联网的智能主体还是人工智能中的智能机器人,对段落篇章的语义分析都是它们进行推理和理解的前提。然而,仅仅是对静态文本进行篇章分析还远远不能达到信息服务的要求,在更多领域,对智能互联网的人机动态交流的需求,要求引入语用技术,使得作为交流一方的计算机系统,可以根据实时交流中变换着的语境,对双方的语义内容进行新的分析和推理,而这是现有理论所缺失的。

与篇章分析类似,现阶段我们还不能实现针对某一语言的全部应用来构造基于动态的理解框架。然而,通过对旅游问答系统、网上购书系统、医疗系统、行政系统及法律法规系统的分析可以看出,在这些特定领域,人们的提问意图、提问方式和提问顺序之间有一种内在的必然联系。我们可以根据这种规律性构建基于语境的动态理解框架。其实质就是对一些逻辑思维的程序化抽象,通过与数据库中已经存在的动态框架进行匹配,在逐步判断的基础上,实现系统对情境变化的选择与修正,从而实现对对方意图或语义的理解。由于在这些特定领域内,如天气、旅游、司法等专业领域,人们的意图有很强的相似性且种类非常少,使用的词汇也比较集中,应用价值也非常高,因而可以率先在这些领域中进行动态语义知识的研究。

此外,在语言的动态交流过程中,交流双方都是作为一个独立个体来处理外部问题的,它们本身就是语言的使用者。作为交流一方的计算机系统虽然无生命,但它在某种意义上也应是有立场的,需要站在使用者的立场来分析语言。维特根斯坦曾经指出:“意向是植根于情境中的,植根于人类习惯和制度中的。”①从语言的使用层面处理语义问题和意向性问题,可以更好地实现对语言的理解。从这个意义上说,自然语言处理需要从语义阶段迈向语用阶段。

(4)理性主义技术路线与经验主义技术路线的融合趋势

要想满足自然语言处理的应用需要,如机器翻译、问答系统、信息抽取等,必须模拟人类理解语言的认知机制,具备一定的推理能力。然而,认知科学是一门以人工智能、神经生理学、心理学、语言学、哲学为基础的交叉学科,在人类还没有弄清楚人的认知行为之前,自然语言处理的哲学基础是理性主义和经验主义。理性主义认为通往知识的道路是逻辑分析,而计算机中处理的自然语言符号,恰恰是建立在逻辑语言基础之上的,其智能的实现很大程度上要依赖于逻辑理论,经验主义认为知识通过经验来获取,自然语言处理中的很多成果,都应归功于大量的实践基础。然而,无论理性主义还是经验主义,在自然语言处理中都遇到了不可逾越的障碍。

从以上对词网和框架网络的分析中可以看出,目前语义知识库中记录的主要是语义关系知识。传统的结构主义语言学把语义关系类型分为聚合关系和组合关系两类。一般来说,聚合关系反映同质语言成分之间的类聚性质(例如,词网),利用聚合关系构建的语义知识库主要采取理性主义技术路线,而组合关系则体现异质语言成分之间的组配性质(例如,框架网络),利用组合关系构建的语义知识库多采用经验主义技术路线。①二者在自然语言处理的不同应用中都可以发挥作用,具有很强的互补性,并且它们都是在计算机对“语言形式”做各种类型的变换(组合)操作时,作为约束(判别)条件来使用的,它们的融合有助于构建功能相对完善的大型语义知识库,是未来语义研究工作的一个重要方向。②

(5)自然语言处理正实现着从语形网(The Syntactic Web)到语义网的转向,下一步很有可能向语用网的方向发展。

早在20世纪30年代,美国哲学家莫里斯把语言符号划分为三个层面:语形学、语义学和语用学,之后,德国逻辑学家卡尔纳普也提出了与莫里斯相类似的划分。在自然语言处理中,语义是实词进入句子之后词与词之间的关系,是一种事实上或逻辑上的关系。所谓语义框架分析,就是用形式化的表述方式,将具体句子中的动词与名词的语义结构关系(格局)表示出来。虽然现阶段的框架建立在“场景(scene)”之上,并在一定程度上体现出“立场(standpoint)”的概念,但这仅是局限在单句范围内的“小场景”和“施事”方的“小立场”,还不能反映站在语言使用者角度(或立场),在文章层次或隐喻着社会知识层次的这种“大场景”(即“语境”)下的语义关系。

但是,自然语言中大量存在的歧义性和模糊性等现象,是现阶段以词语为核心,对句子的语义理解所不能处理的。它忽视了作为语言的使用者“人”的主体地位。如维特根斯坦所强调的,人是语言的使用者,语言的使用是同人的生命活动息息相关的。这一思路把语言的使用放在了人类生活这样一个大背景中了。主体的参与性以及不同主体使用语言的不同方式,是考察语言的前提。词语和语句作为工具,它们的意义只能在使用中表现出来。因为语句的意义并不是隐藏在它的分析中的,而是体现在它在具体的语言游戏中的使用。这就消解了存在于自然语言之中的歧义性、模糊性、隐喻等一直困扰语言学家的问题,从而为自然语言处理指出了发展方向:只有引进语言的使用者以及具体的语境描述,才能解决语句的意义问题。

正是在这个意义上,以强调语言使用者的主体性和语境描述为特征,自然语言处理从语义阶段进入到语用阶段,这也是将自然语言处理划分为语义阶段和语用阶段的意义所在。实质上,从语义阶段到语用阶段的转换,实现了将语义和语用统一于一个认知模型的过程。“一方面,语义学通过语言表达式的语法规则提供了语言的编码——解码装置,将物理实在与语言代码有机结合起来,另一方面,语用学则诉诸具体言说和行为语境,通过主体意向性在交流中将思想转化为语言推理过程,形成了对世界的认识和对知识的传达。它们构成了解释人类行为和意义的认知系统。”①

总之,自然语言处理正经历着一个从语形到语义、再到语用的逐步递进的发展过程。基于自然语言处理的智能互联网,其发展历程似乎正遵循着莫里斯和卡尔纳普的理论,在经历了前一阶段的语形网之后,正逐步迈向语义网这一新的阶段,最终很有可能迈向语用网这一更高层次。