您好、欢迎来到现金彩票网!
当前位置:2019欢乐棋牌 > 自动分词 >

中文文本信息处理的原理与应用_自动分词

发布时间:2019-07-21 01:16 来源:未知 编辑:admin

  中文文本信息处理的原理与应用_自动分词_IT/计算机_专业资料。介绍中文文本分词的应用现状的。

  中文文本信息处理的原理与应用 第二章 自动分词 问题的提出 ? 例子 ? ? He will come to Shanghai tomorrow 他明天将来上海 (英文) (中文) ? 区别 ? ? ? 中文中最小单位是字,英文为单词(有意义); 中文中具有意义的最小单位是词(含单字词); 中文中字与字或词与词之间没有明显的界限。 自动分词 中文文本信息处理的原理与应用 主要内容 ? ? ? ? 基本概念 分词规范 分词词典 分词算法 中文文本信息处理的原理与应用 基本概念 ? 自动分词 ? ? 利用计算机把中文文本字串转化为词串的过程。 例:他/ 明天/ 将/ 来/ 上海/ 中文信息处理的基础步骤 对中文处理系统的性能有重要影响 广泛的应用价值:语音识别、信息检索…… ? 研究意义 ? ? ? 中文文本信息处理的原理与应用 基本概念(续) ? ICTCLAS简介 ? Institute of Computing Technology, Chinese Lexical Analysis System () ? ? 中国科学院计算技术研究所研制的基于多层隐 马尔科夫模型的汉语词法分析系统。 功能:中文分词、词性标注、未登录词识别 ICTCLAS 分词 中文文本信息处理的原理与应用 主要内容 ? ? ? ? 基本概念 分词规范 分词词典 分词算法 中文文本信息处理的原理与应用 分词规范 ? ? ? 《信息处理用现代汉语分词规范》GB13715 1993 《资讯处理用中文分词规范》台湾中研院 1995 《现代汉语语料库加工规范——词语切分与词性标 注》北大计算语言研究所 俞士汶等 1999 中文文本信息处理的原理与应用 分词规范(续1) 现代汉语语料库加工规范 切分规范 切分和标注相结合的规范 标注规范 中文文本信息处理的原理与应用 分词规范(续2) ? 《现代汉语语料库加工规范》 ? 切分单位:沿用“分词单位”,主要是词,也包括了 一部分结合紧密、使用稳定的词组。在某些特殊情况 下孤立的语素或非语素字也可能出现在切分序列中。 例:出/v 了/u 一/m 次/q 差/Ng ? 人名:一些著名作者的或不易区分姓和名的笔名通常 作为一个切分单位。 例:鲁迅/nr, 巴金/nr, 琼瑶/nr 中文文本信息处理的原理与应用 分词规范(续3) ? 《现代汉语语料库加工规范》 ? 地名:后有“省”、“市” 等单字的行政区划名称 时,不切分。 例:江苏省/ns, 上海市/ns 数量词:切分为数词和量词,但少数数量词已是词典 的登录单位,则不再切分。 例:三/m 个/q,10/m 公斤/q,一个/m ? 中文文本信息处理的原理与应用 分词规范(续4) ? 《现代汉语语料库加工规范》 ? 单音节代词:“本”、“每”、“各”、“诸”后接 单音节名词时,与其合为代词;当后接双音节名词时, 应予切分。 例:本报/r, 每人/r,本/r 地区/n 四字的成语或习惯用语为一个切分单位。 例:胸有成竹/i,由此可见/l …… 中文文本信息处理的原理与应用 ? ? 分词规范(续5) 现代汉语语料库加工规范 切分规范 切分和标注相结合的规范 标注规范 中文文本信息处理的原理与应用 分词规范(续6) ? 《现代汉语语料库加工规范》 ? ? ? 重叠:AA,AA的/地,AAB,ABB,AABB,A 里 AB,A 不AB等形式不切分,ABAB形式切分。 例:人人/n,甜甜的/z,挥挥手/v,亮堂堂/z,方方 面面/n,糊里糊涂/z,高兴/a 高兴/a 附加:前接成分+语素或词、语素或词+后接成分、 前接成分+语素或词+后接成分不切分。 例:阿华/nr,老张/nr,花儿/n,爷儿们/n,求知者 /n,无政府主义者/n 复合:如单纯方位词+名(单音)的定中结构作为一 个切分单位。 例:前院/s,左肩/n,后天/t 中文文本信息处理的原理与应用 主要内容 ? ? ? ? 基本概念 分词规范 分词词典 分词算法 中文文本信息处理的原理与应用 分词词典 ? ? ? 词典构造 考虑因素 词典举例 中文文本信息处理的原理与应用 词典构造 —— 用于基于词典的分词算法 中文文本信息处理的原理与应用 分词词典 ? ? ? 词典构造 考虑因素 词典举例 中文文本信息处理的原理与应用 考虑因素 ? 构建一个高效的分词词典,从以下三个方 面考虑: ? ? ? 查询速度:匹配算法效率的直接决定因素 存储利用率:分词词典设计小 维护效能:插入、删除、更新等操作的难易程度 中文文本信息处理的原理与应用 分词词典 ? ? ? 词典构造 考虑因素 词典举例 中文文本信息处理的原理与应用 词典举例 ? 文本形式与数据库形式 中文文本信息处理的原理与应用 主要内容 ? ? ? ? 基本概念 分词规范 分词词典 分词算法 中文文本信息处理的原理与应用 分词算法 ? ? ? ? 正/逆向最大匹配 正/逆向最小匹配 邻近匹配 最短路径匹配 中文文本信息处理的原理与应用 正/逆向最大匹配 ? 正向最大匹配 ? 用MAXL表示最大词长,按照从左到右的顺序,首先从汉字串 中取长度为MAXL的子串查词典。若词典中存在这个词,则切 分出该子串,指针后移 MAXL 个汉字后继续切分,否则,子串 长度减一,再与词典匹配。若长度为2的子串还不能在词典中查 到,则取当前汉字为词,指针后移一个汉字继续匹配。 ? 逆向最大匹配 ? 与前者区别在于抽取顺序,从汉字串尾端开始抽取。 中文文本信息处理的原理与应用 正/逆向最大匹配(例) ? “他们明天来上海” ? 正向最大匹配过程 他们明天 他们明 他们 明天来上 明天来 明天 来上海 来上 来 上海 ? 逆向最大匹配过程 天来上海 来上海 上海 们明天来 明天来 天来 来 他们明天 们明天 明天 他们 中文文本信息处理的原理与应用 分词算法 ? ? ? ? 正/逆向最大匹配 正/逆向最小匹配 邻近匹配 最短路径匹配 中文文本信息处理的原理与应用 正/逆向最小匹配 ? 正向最小匹配 ? 按照从左到右的顺序,首先从汉字串中取长度为2的子串查词典。 若词典中存在这个词,则切分出该子串,指针后移2个汉字,否 则,子串长度逐次加一继续匹配。若一直到长度为MAXL的子 串仍无法匹配,则切分出当前汉字。 ? 逆向最小匹配 ? 与前者区别在于抽取顺序,从汉字串尾端开始抽取。 中文文本信息处理的原理与应用 正/逆向最小匹配(例) ? “他们明天来上海” ? 正向最小匹配过程 他们 明天 来上 来 上海 来 上海 ? 逆向最小匹配过程 上海 天来 明天来 们明天来 来 明天 他们 中文文本信息处理的原理与应用 分词算法 ? ? ? ? 正/逆向最大匹配 正/逆向最小匹配 邻近匹配 最短路径匹配 中文文本信息处理的原理与应用 邻近匹配 ? 设待切分中文字串C 0C1C 2……Cn ? 1,根据C0C1得 到所有以C0C1为首的词条集W,如果W为空, 则将C0切分出来,否则切出满足: max{k C 0C1……Ck ?W } 的子串 C 0C1……Ck ,再将 剩余字串Ck ? 1Ck ? 2……Cn ? 1 作为新的待切分串进 行同样的处理,直到待切分串变成空为止。 改进的正向最大匹配,以降低时间复杂度。 ? 中文文本信息处理的原理与应用 邻近匹配(例) ? “为奥运会健儿加油啊” “为奥” W = ? 为 “奥运” W = {奥运,奥运会 } “奥运”匹配 长度=2 “奥运会”匹配 长度=3 奥运会 “健儿” W = {健儿} “健儿”匹配 长度=2 健儿 “加油” W = {加油,加油站} “加油”匹配 长度=2 “加油站”≠“加油啊”不匹配 加油 “啊” 啊 中文文本信息处理的原理与应用 分词算法 ? ? ? ? 正/逆向最大匹配 正/逆向最小匹配 邻近匹配 最短路径匹配 中文文本信息处理的原理与应用 最短路径匹配 ? 设待分中文字串C1 C2…Cn,建立一个结点数为n+1的 切分有向无环图G,各结点编号依次为V0,V1…Vn,通 过以下两种方式建立G所有可能的词边。 (1)相邻结点Vk-1,Vk之间建立有向边Vk-1,Vk,对应 的词为Ck,边的权值Lk=ln(K)-ln(Ki),其中K为词典所 有词的频次之和,Ki为Ck出现的频次,默认为1。 (2)若w=CiCi+1…Cj是字典中的登录词,则结点Vi-1,Vj 之间建立有向边Vi-1,Vj,对应的词为w,边的权值 Lw=ln(K)-ln(Ki),其中Ki为w出现的频次。 中文文本信息处理的原理与应用 最短路径匹配(续) ? 采用Dijkstra算法求有向图G的最短路径,比如路 径为V0-Vi- Vs -…-Vt- Vj-Vn,则词串切分为C1…Ci/ Ci+1…Cs/ ……/ Ct+1…Cj/ Cj+1…Cn。 一般的最短路径匹配算法,将词的对应的边长的 权值均设为1,但往往存在多条最短路径,如果只 保留其中一个结果,切分效果不是很理想。 ? 中文文本信息处理的原理与应用 最短路径匹配(例) ? “他的确切地址” 最短路径:V0-V1-V2-V4-V6 对应词串:C1/ C2/ C3C4/ C5C6 切分结果:他/ 的/ 确切/ 地址/ 中文文本信息处理的原理与应用 分词实验 ? 实验系统 见WordSeg目录 ? 测试用例 1.他说的确实在理, 从小学到中学他都 是好学生。 2.今年将在中国首 都北京举办第29届 奥运会。 中文文本信息处理的原理与应用 Thanks 中文文本信息处理的原理与应用

http://ihmekauppa.com/zidongfenci/265.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有