一、分词困难的两种类型 1.判断上的困难 对于结构类型相同、结构项的语法属性相同的字串,哪些是词、哪些不是,不易断定。例如: 鸡蛋一野鸡蛋猪肉一病猪肉排球赛一沙滩排球赛 2.表示上的困难 能正确判断哪些字串是词、哪些不是,但不易揭示这种判断背后的知识。也就是说,不容易找到和说出判断的标准。 二、分词规范中应该利用规则 《信息处理用现代汉语分词规范》§5.1.2.2民族名、地名中的“族、省、市……”等应单独切分。但包括“族、省、市……”等只有两个字的民族名、地名,则不予切分。例如: 汉族~哈萨克忻县~正定县 专名部分不能单独存在而保持原有意义的地名,不予切分。例如: 牡丹江横断山 街、路、村镇名称,各大洋和大海一律为分词单位。例如: 长安街 大西洋 地中海 用规则说起来可能会更简单和明了。比如: 如果“专名+类名”能省略为“专名”,那么单独切分,否则不予切分 三、规范词表应该建立等级 一个通用的兼顾人机的规范词表应该设立等级类别,以便既可以各取所需,又可以互相折算和对应。比如,一级词汇是那些没有争议的词,二级词汇是那些游移于词和词组之间的字串,它们通常由一些能产性强的格式或结合面宽的语素造成的。例如: 好吃 好弄 公开化 地下化 游戏机 抽油烟机 三级词汇是那些在现代汉语中并不通用的文言词,他们通常出现在固定的文体或结构中。例如: 讯(“新华社某月某日讯”) 吝(“这样的事他也吝而不做”) 四级词汇是那些从语言学上看肯定是词组,但同现概率和出现频率极高的字串。例如: 一个 这种 那些 不同 为什么 百分之百 为了信息处理的方便,也可以把它们当作是一个分词单位。 如果有了类似的分级词表,那么不同的用户可以根据需要来规定把哪几级词汇作为分词单位。这也许是达到共享和复用电子词典和语料库等资源的一种现实的措施。 长安街 大西洋 地中海 用规则说起来可能会更简单和明了。比如: 如果“专名+类名”能省略为“专名”,那么单独切分,否则不予切分 三、规范词表应该建立等级 一个通用的兼顾人机的规范词表应该设立等级类别,以便既可以各取所需,又可以互相折算和对应。比如,一级词汇是那些没有争议的词,二级词汇是那些游移于词和词组之间的字串,它们通常由一些能产性强的格式或结合面宽的语素造成的。例如: 好吃 好弄 公开化 地下化 游戏机 抽油烟机 三级词汇是那些在现代汉语中并不通用的文言词,他们通常出现在固定的文体或结构中。例如: 讯(“新华社某月某日讯”) 吝(“这样的事他也吝而不做”) 四级词汇是那些从语言学上看肯定是词组,但同现概率和出现频率极高的字串。例如: 一个 这种 那些 不同 为什么 百分之百 为了信息处理的方便,也可以把它们当作是一个分词单位。 如果有了类似的分级词表,那么不同的用户可以根据需要来规定把哪几级词汇作为分词单位。这也许是达到共享和复用电子词典和语料库等资源的一种现实的措施。 灰捉沂菊庵峙卸媳澈蟮闹丁R簿褪撬担?不容易找到和说出判断的标准。 二、分词规范中应该利用规则 《信息处理用现代汉语分词规范》§5.1.2.2民族名、地名中的“族、省、市……”等应单独切分。但包括“族、省、市……”等只有两个字的民族名、地名,则不予切分。例如: 汉族~哈萨克忻县~正定县 专名部分不能单独存在而保持原有意义的地名,不予切分。例如: 牡丹江横断山 街、路、村镇名称,各大洋和大海一律为分词单位。例如: 长安街 大西洋 地中海 用规则说起来可能会更简单和明了。比如: 如果“专名+类名”能省略为“专名”,那么单独切分,否则不予切分 三、规范词表应该建立等级 一个通用的兼顾人机的规范词表应该设立等级类别,以便既可以各取所需,又可以互相折算和对应。比如,一级词汇是那些没有争议的词,二级词汇是那些游移于词和词组之间的字串,它们通常由一些能产性强的格式或结合面宽的语素造成的。例如: 好吃 好弄 公开化 地下化 游戏机 抽油烟机 三级词汇是那些在现代汉语中并不通用的文言词,他们通常出现在固定的文体或结构中。例如: 讯(“新华社某月某日讯”) 吝(“这样的事他也吝而不做”) 四级词汇是那些从语言学上看肯定是词组,但同现概率和出现频率极高的字串。例如: 一个 这种 那些 不同 为什么 百分之百 为了信息处理的方便,也可以把它们当作是一个分词单位。 如果有了类似的分级词表,那么不同的用户可以根据需要来规定把哪几级词汇作为分词单位。这也许是达到共享和复用电子词典和语料库等资源的一种现实的措施。 们应该也有可能做出比前人更进一步的工作。附 *本项研究得到国家自然科学基金资助。黄昌宁教授对本文初稿提出许多修改意见,谨此致谢。 注释: