基于语料库的高频最大交集型歧义字段考察

Citation:

2006. “基于语料库的高频最大交集型歧义字段考察.” 中文信息学报, 20, 1, Pp. 1-6.

Abstract:

摘　要：交集型歧义是中文分词的一大难题，构建大规模高频最大交集型歧义字段（MOAS）的数据库，对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出，与FBMM相比，全切分才能检测出数量完整、严格定义的MOAS，检测出的MOAS在数量上也与词典规模基本成正比。然后，在4亿字人民日报语料中采集出高频MOAS14906条，并随机抽取了1354270条带有上下文信息的实例进行人工判定。数据分析表明，约70％的真歧义MOAS存在着强势切分现象，并给出了相应的消歧策略。

Contact

IQSS, Harvard University
Cambridge, MA 02138
binli.at.fas.harvard.edu

<embed>

Bin Li

Visiting Scholar at CBDB

基于语料库的高频最大交集型歧义字段考察

Citation:

Abstract:

Contact

Recent Publications