您好、欢迎来到现金彩票网!
当前位置:2019欢乐棋牌 > 智能自动机 >

智能语义理解搜索引擎中汉语虚词的形态特征略析

发布时间:2019-06-28 10:19 来源:未知 编辑:admin

  摘要:语义智能化发展是大数据技术国家重大战略需求,也是统计学、数据科学、信息科学和管理科学等学科的国际前沿。在大数据环境下,数据的规模、类型、结构和增长速度发生了质的变化,传统数据分析和处理的统计学理论和分析方法已不能满足大数据时代下的种种需求。本研究拟围绕大数据分析与处理的统计学基础理论与分析方法的核心问题和难点问题,略析语言大数据处理

  Internet互联网广泛应用,人们对信息查询的要求越来越高,目前搜索引擎中全文检索都是基于关键词匹配的,在不断膨胀的用户需求面前,中文搜索所展现出的局限性越来越不可忽视,其中之一就是它不能区分同形异义,岐义现象的产生是没有建立完整的语义理解支撑,完整的语义理解是智能化搜索引擎的基础核心。西方语言是粘连型语言,而汉语是分析型语言,依据汉字的三要素音、形、义进行解析,解“义”而言汉字(词)分为实词和虚词,在现有的搜索引擎中,往往通过实词及关键词匹配来满足检索需求,汉字的虚词常被忽略,而用户查询语句的真实意向得不到完整的语义理解[1-2]。显然,汉语虚词虽无“意”却有“形”,但在语句中具有语法等功能形态,忽略虚词、虚(词)实(词)关系是形成歧义现象的基本原因之—。

  汉字一词多义现象也与虚词的形态变化相关,多义性导致字词的智能化辨义解析程度降低,出现查询精度不高、检索效率低下等现象,为此简单的关键词匹配(实词)和完整的语义匹配(实词+虚词)是有本质区别的。虚词虽无义却有形,其形态量化与关系是首要任务之一,明晰了形态关系也就解决了语句中实词与虚词搭配组句的语法、语义、语用形态特征,汉语虚词形态信息提取及量化分析是智能化语义理解不可或缺的[3-4]。换言之,词汇语用修正了词汇语义在词语选择与词语理解上的缺陷,并指出语境化是理解和使用词语的关键。词汇的使用和理解不仅仅是一个语言问题,更是一个语用与认知(语感)的问题。

  现代汉语虚词约800左右,而古代虚词约1100左右,文言文是古代的书面语言,也是现代汉语的源头,追本溯源,从繁至简,正确理解现代汉语虚词的演变规律和形态变迁,唯有从文言虚词的形态关系(稳定知识源)分析着手,力求寻找汉语虚词的自然演变规律[5]。

  智能化搜索引擎面对的汉语语言是一种混合型文体(现代汉语+特殊文体),特殊文体包含诗词歌赋文言文等,无疑在现代语言中文言虚词古为今用比比皆是。文言虚词四种完整形态包括单音、复音、定式搭配、惯性词组,经甄别该虚词的完整构词数量,以保证分词定位匹配的正确精度。确定虚词在句中的位置、形态、关系,也就保证了句子的语法、语义、语用方向判断和逻辑推送的可计算性,从而为智能化搜索奠定了基础。

  虚词的虚化程度评价体系是建立虚实关系、量化评价评测、虚化程度分布、相似度分析以及虚实用的概率统计分析[6]。虚词关系模型的建立是语言数据预处理的必经之路,也是打开未来智能汉语语义理解之窗。

  本研究主要分为数据预处理和数据分类规约处理。正确的理解现代汉语虚词的演变规律和形态变迁,为文言虚词的知识规则结构化处理及定量定位定性分析作准备。文本数据开采必须建立专家知识库、样本语料库,其中包括对数据的净化、转换、变量的整合以进行数理统计、数据挖掘、人工智能等技术运用,构造以虚词为中心的大数据开采平台。

  统计知识库的知识转化为规则的静态数据处理,具体而言将虚词字典的知识内容进行知识规则划分,依据符号定义和符号规约,完成知识到规则的结构化处理。

  知识库的建立是将传统的知识字典按照现代数据处理方法分层分类。语料库是依据知识库相对应的知识规则,抽取样本语料进行规则验证和规则升降维处理,以满足规则置信度、相似度、精确匹配以及匹配命中率统计分析。知识库转化为规则库是通过语料验证匹配才能形成种子规则,以便于精确匹配和提高匹配命中率[7]。

  在建立虚词的分层分类位置形式上实行定位分析,因为虚词没有严格形态特征,却有句位特征,如“择善而从之”(句末特征),以便于句位的统计概率规律分析。定量分析可分为四种形式(单音虚词、复音虚词、定式搭配、惯性词组)的虚词量化分析,用以满足虚词为中心词的分词划分技术加统计分析来实现,从而达到完整语句中的虚字虚用/实用的分层分类[8-9]。

  (1)0层 基本形态特征1:构组词关系(单音、复音、定式、惯性词组),词序(间)关系,虚实比关系(虚实用关系、虚词与位置关系、虚词与语义语用关系)。语言形态与词汇映象。

  (2)1层 基本形态特征2:句法形态(陈述句,疑问句,祈使句,感叹句),句法成分形态(主语,谓语,宾语,状语,定语,补语)。语言形态与句法映象。语义结构形态标注,语用功能形态标注(判断句,省略句,倒装句,被动句,固定句式)。语言形态与句式映象。

  总之,0~1层的基本形态是从语形学视角分析词汇相关符号与符号之间的关系。而语义学关注的是 有关符号与符号所指之间的关系。语用学则是有关符号与解释者之间的关系。虽有异曲同工,但语形、语义、语用的三者关系而言,语形以语义为前提,语义是从语用中抽象出来的。而语用学是符号学基础,确切的语用特征是它处理符号化过程的不同形态(如句位形态)选择同样暗含语用信息(话语环境、交谈对象或线]。上下文环境对象事件从语用视角延伸至语境都是认知语言学基本范畴,而句位形态引入展现人类语言习得过程和机理,认知形态的又一新视野。

  虚字的虚实不分会造成数据的不一致性,虚字实用在虚实化统计分析中客观反映量化分析的每一个字的虚化程度,从而将字的虚化演变过程从静态到动态进行明确的量化属性分析。通过形式量化、数理统计等方法,将常用虚字18(A集)对应中学语料117篇进行虚实分类得出四种形式与频度的关系。确定了虚字在句中的位置、句位和形式以及规则分布和各概率分布映象,再经过置信测试和语料保障测试,使其样本依据具有足够的置信度

  例3:2013年高考语文安徽卷下列各组句子中,加点词的意义和用法相同的一组是(D)

  综上所述,运用定性分析方法解决虚词的基本形态划分和形态特征分析,可满足以虚词为中心的分词技术在对特殊文体(文言文)中的虚用实用甄别,通过梳理句中的词序关系和词间关系,加上句位特征,形成一种稳定组合形态,依此对应句中的语法意义、语义结构、语用功能,使特征数据的结构更加明晰,更可计算,以便于大数据挖掘[17-18]

  汉语语义理解高端智能化终极目标之一就是实现人机交互更深层次需求,提出以虚词为形态标识评价评测体系方法,实现特殊文体(文言文)分词划分技术[19]

  [20],为语句中各形态建立可分析可计算多维形态标识[21-22]。通过对汉语文言常用虚词的虚实化数据挖掘与分析,以虚词为中心对古汉语

  [23-24],为未来的智能化搜索语义理解提供可计算、可判断的全析理解奠定了实用基础[25],也就提供了语言数字化处理的智能理解支撑,在此基础上可扩充到现代汉语虚字的延展,就能满足未来各行各业的智能化(例:智能搜索、机器人、APP在线教育等)需求。参考文献

  [13]昝红英, 朱学锋. 面向自然语言处理的汉语虚词研究与广义虚词知识库构建. 当代语言学, 2009, 11(2):124-135

http://icegeology.com/zhinenzidongji/118.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有