您好、欢迎来到现金彩票网!
当前位置:2019欢乐棋牌 > 自动分词 >

自动分词与分词规范——关于《信息处理现代汉语规范》的重新思考

发布时间:2019-08-07 02:55 来源:未知 编辑:admin

  自动分词与分词规范——关于《信息处理现代汉语分词规范》的重新思考_文学_高等教育_教育专区。· · 泰 山 论 坛 自 动 分 词 与 分 词 规 范 124 自动分词与分词规范 —— —关于《信息处理现代汉语分词规范》的重新思考 □李 迅 摘 要:动分词技术是计算语言 学中的一个

  · · 泰 山 论 坛 自 动 分 词 与 分 词 规 范 124 自动分词与分词规范 —— —关于《信息处理现代汉语分词规范》的重新思考 □李 迅 摘 要:动分词技术是计算语言 学中的一个瓶颈问题,在刚刚做过的 留学生汉语语料库词性标注工作中, 我们也发现了许多关于自动分词的 问题。 围绕这些问题,参照《信息处理 现代汉语分词规范》, 我们提出了对 词表、分词规范、人工校对、消歧、未 登录词、最大概率法等方面的看法和 建议。 关键词:自动分词;计算语言学; 规范 自动分词是计算语言学的一大 问题, 分词是一个基础性的技术,这 也是语句分析和篇章分析的基础。整 个分词的过程应该分为两个部分:第 一是自动分词,即机器分词;第二是 人工校对。 机器分词中,我们觉得,词 表尤为重要。机器在很大程度上都要 以词表为依据。因此在处理大规模语 料之前,首先需要在词表上下一番工 夫。 这需要人工的介入,对词表进行 认真地校对。在刚刚做过的留学生汉 语语料库的词性标注工作中,我们深 深地感到人工介入的必要性。完全基 于计算的自动分词,有时会发生莫名 其妙的错误。有的我想未必是程序识 别的问题,比如说“以后我”这个分词 单位,肯定是词表中的错误。 如果在 校对词表的时候可以找出这个错误, 就不会发生分词的错误。类似这样的 例子不在少数。 因此,把词表校对好, 可以在一定程度上提高分词的效率。 虽然校对词表需要时间和人力,但是 正所谓“磨刀不误砍柴工”,这些精力 的投入是必要的。 关于分词规范,本语料库参照国 家标准 《信息处理现代汉语分词规 范》,即《GB1T 13715-92》,标 注 原 则 参照 《CCLI 词性标注校对备忘录》, 尽管有相应的标准,但我们围绕存在 的问题提出两点想法: 第一, 统一的规范是必要的,否 则难以实现分词语料的资源共享,但 是统一规范的实现是有一些困难的。 虽 然 《GB1T 13715-92》 分 词 规 范 的 描述很详细,但正因为详细,才不免 地带来条条杠杠, 容易引起前后矛 盾, 带来分词的实际操作中的不一 致。 例如,一些俗语和习惯搭配,是从 分,还是从合,在分词规范中都可以 找到依据。 再一个,就是像语义原则 与实用原则中就有部分矛盾。 第二,其中一些分词规范有待商 榷。 例如对日期的切分,“初一”至“初 十”,作为分词单位,但“初十一”、“初 十二”等就不作为分词单位了,理由 是前者数量有限, 我们觉得很牵强。 这样的标准无疑是徒增了许多麻烦, 反而不如将其统统分开, 统一原则, 例如 “年”、“月”、“日”、“时”、“分”、 “秒”和“初”这样的词,不管连接的数 词是多少,都一律切分,我觉得这样 会更好。 在刚做过的词性标注工作 中,这样的问题不在少数,感觉对时 间日期的切分非常混乱。分词的规范 极不统一, 为校对工作带来许多不 便,类似问题应重新考虑。 机器分词的一个重要问题就是 关于消歧。分词中的歧义分为交集型 歧义与组合性歧义。在语料库的建设 中,的确遇到过很多这样的问题。 我 们认为, 机器分词后的人工校对,在 很大程度上是对于由于各种歧义而 造成误分的校对。 我多次遇到把“不 一样”切分为“不一/样”,“看中国”切 分为“看中/国”,例子很多,程序似乎 对这些歧义问题无能为力。而我们认 为,其原因是《GB1T 13715-92》对 于 消歧规则的描述不够。我觉得比较好 的方法应该是有效利用上下文进行 消歧,要通过统计的方法找出歧义字 段上下文的特殊词语, 并加以描述, 使之成为消歧的依据。 机器分词的另一个问题是关于 未登录词。未登录词的切分是分词中 的重要一块。 它的未知性是对 《GB1T 13715-92》的重要考验。 自动 分词之所以无法达到准确无误,很大 原因是由于对未登录词的识别错误, 该合的误分了,该分的误合了。 一般 的机器词表无法涵盖真实文本中的 所有的词,必然会有大量的词被排斥 在词表之外。 因此,对于这部分词,如 何让机器准确地识别, 就很重要了。 我们认为未登录词识别的困难有三: 第一、人名、地名以及其他专有名词 较多,而构成这些词语中的词素本身 有又是较为活跃的词, 出现频率较 高,因此容易造成机器的误分;第二、 有些未登录词较长,有的词语的切分 本身就有争议,从合还是从分,不好 定论;第三、词汇始终处于变化之中, 新词语的不断涌现,给自动分词带来 很大的考验。 解决未登录词的切分,我们认为 应该把基于统计的方法与基于规则 的方法统一起来。要善于利用规则的 方法,要用语言学的知识,对词语的 内部特征进行归纳,从语法和语义上 对它进行描述, 以备生成新词之用。 再一个就是充分利用统计的方法。利 用上下文语境,建立观察窗口,对细 颗粒度的特征要加以描述,要在大规 视唱练耳的实用性教学方法 □孙璐莎 摘 要:视唱练耳在音乐教学中 是非常重要的一项训练,是所有音乐 理论课程的基础。在各艺术院校招生 和各省音乐联考中,具有举足轻重的 作用。 然而,练耳也是绝大部分学生 最头疼的一门课程,因为音乐听觉无 法在短时间内得到显著提高,也无法 像其他课程那样临阵磨枪就可以达 到一定的效果,是需要接受一定时间 的正规训练和找到适合自身特点的 练习方法,才能得到稳步的提高。 笔 者在视唱练耳的教学过程中,总结了 一点实用性教学方法。 关键词:量身定做;色彩性听觉 训练 一、 深刻分析学生的特性,为学 生量身定做教学计划 学生由于专业方向不同,音乐听 觉逻辑和习惯也相差甚远。根据学生 专业的特点, 大致可分为以下三种 (仅限于音乐表演专业学生) 1. 钢琴专业学生 大部分钢琴专业学生对钢琴的 音响非常熟悉,对音高的感觉相对准 确, 有一定的音乐横向和纵向思维。 在视唱练耳的教学过程中,钢琴专业 的学生会非常明显的显露出比较突 出的优势。 因此,对钢琴专业学生教 授视唱练耳课程是比较轻松的。 钢琴专业学生容易存在的问题 是对音程及和弦的色彩不够敏感,学 生只有绝对音高,对色彩性的音乐元 素缺乏敏锐的洞察力,对和声缺乏概 念上的认知,因此,要使钢琴学生发 挥他们对绝对音高的敏锐性这一优 势, 就要触动他们对音乐色彩的感 觉,结合简单的和声知识设计教学计 划。 模的语料库中进行分析。 我们设想, 解决未登录词的问 题,还应该在词表上下点儿工夫。 词 是语言各要素中最容易变化的部分。 词表应充分体现出这一点。 我们的设 想就是能够让词表“动”起来。 通过建 立程序,让词表可以自我更新,对于 出现达到一定的频率的未登录词加 以吸收, 使之成为词表中的正式一 员。 这样就可以完善词表,并有助于 解决未登录词的问题。 当然,这样做 可能会造成词表的冗长,所以我们还 设想,词表既要能“纳新”,又得会“吐 陈”, 对于过时的长期不用的词语进 行删除,这样有进有出,使词表基本 保持平衡。 或者可以将暂时不用的词 语放入一个临时词表,作为词表的辅 助工具可以随时调出。 机器分词的算法通常是最大概 率法。 一般所了解到的最大概率法 是:一个字串有多种切分形式,即对 应于多个词串时,可以通过计算从中 挑选出一个概率最大的词串作为切 分结果。 最大概率法有着重要的作 用,然而对于它,我们有一点儿疑问: 最大概率法意味着什么? 我们认 为它是以牺牲小概率现象为代价的。 因此,我们看到的百分之多少多少的 正确率,只不过是在无限地接近于它 的承受底限, 它无法再能有突破了, 最大概率法的存在,就意味着我们不 会得到很低的正确率,却也不可能达 到人们可以期待的水平。 因为,它要 忽视小概率现象,而小概率现象毕竟 是存在的。 我们认为,要使分词水平 再上一个台阶,必须要解决小概率问 题,不能“一刀切”而放弃它。 还有就是最大概率法是在什么 情况下计算的? 我们认为,既然是一 种统计的方法, 那么就需要计算,这 离不开语料库的帮助。 语料库的大小 和其他性质,有可能会影响到计算的 结果。 在这次留学生汉语语料库中, 我们发现这样一个交集型歧义的切 分— ——“不 知 道 ”。 机 器 全 部 切 成 了 “不知/道”。 这有可能和训练语料有 关,也许在训练语料中“不知”的成词 概率更高。 所以,机器将之切分为“不 知/道”。 所以,最大概率法并不完善, 还需要很大的提高。 在留学生汉语语料库的建设中, 我们感到现在的自动分词的水平还 远远不能让人满意,而且自动分词也 会出现前后不一致的现象。 例如,有 的结构在前面出现时是分开的,而在 后面出现时则是合起来的。 在实际的 校对工作中,也花了很大的精力去校 对分词错误,感到十分不方便。 国家 标准的 《信息处理现代汉语分词规 范》对此应负有一定的责任。 因此我 们认为分词的系统并不一定要严格 遵循现代汉语的规范,最重要的是程 序适用。 例如分词的词表中的“词”就 不一定非得是严格意义上的词,它应 服务于程序的工作需要,词表收入的 “词”未必是现代汉语词汇,它可以是 词、短语,总之,如何构建词表才能让 程序更快更准确地分词,这是我们应 该努力的方向。 还有一个想法,那就 是能否建立一个语义系统,即对每个 词作出尽可能完整的语义描述,从语 法、语义、语用上对该词进行说明。 比 如这个词在哪些语言环境中做哪些 成分,常与什么词搭配使用,以及它 的修辞作用等等。 我们认为这样应该 可以从根本上解决自动分词的准确 率问题。 但是要做这样一个语义系统 会是一个非常巨大的工作,可行性有 待进一步检验。 (作者单位:江苏省淮阴师范学 院文学院) 泰 山 论 坛 视 唱 练 耳 的 实 用 性 教 学 方 法 125 · ·

http://ihmekauppa.com/zidongfenci/354.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有