Publications

2019
2019. “不同词性标记集在典籍实体抽取上的差异性探究.” 数据分析与知识发现, 3, 3, Pp. 61-69.Abstract
【目的】在数字人文这一背景下,为更加深入和精准地从古代典籍中挖掘相应的知识,通过实验对比分析,探究不同词性标记集在典籍实体抽取上的差异性。【方法】基于已完成人工校验和机器自动标注的《左传》与《国语》构成的训练和测试语料,以南京师范大学先秦词性标记集为主、以北京大学、中国科学院计算技术研究所和教育部词性标记集为辅,共形成三种不同大小的新标记集,通过条件随机场以及添加特征模板比较这三种词性标记集合在同一语料上进行实体抽取结果的差异性。【结果】在先秦典籍《左传》和《国语》上对不同大小的三种词性标记集开展对比实验,三种模型各自进行实体抽取的F值分别达到82.53%、83.42%和84.07%。【局限】特征选取有待进一步改善,训练结果还有提升空间。【结论】本文研究结果有助于先秦古文献命名实体的抽取,所构建的词性标记集合适用于古汉语词性标注工作。
2018
2018. “基于《汉语大词典》的汉语词汇历时演变计量研究.” 南京师大学报(社会科学版), 219, 05, Pp. 154-162.Abstract
汉语词汇演变是汉语史的重要研究课题,然而由于带标注历时语料库的缺乏,词汇史的研究多为定性研究,宏观的、整体的定量研究还很难实现。本文运用数据库技术和计量方法,在人工标注历史性语文辞典《汉语大词典》的30多万个词条的80多万条书证的时代信息后,对词典中的词汇、义项数量和词长在历代的分布进行了统计学描绘,分析词汇的宏观演变,使用回归分析方法获得了当代词汇的词汇留存度和时代的对数曲线方程,为汉语史研究提供了重要的基础资源和公式。
王东波, 高瑞卿, 沈思, and 李斌. 2018. “面向先秦典籍的历史事件基本实体构件自动识别研究.” 国家图书馆学刊, 27, 1, Pp. 65-77.Abstract
结合数字人文的数据获取、标注和分析方法,识别和挖掘先秦典籍中历史事件基本实体构件具有重要的推广和使用价值。本文将先秦时期极具代表性的《公羊传》《谷梁传》《左氏春秋》《吕氏春秋》《晏子春秋》等作为处理语料,对其中的人名、地名、时间实体等进行内部数量统计和外部特征分析.构建特征模板。在已有的465,197个词汇的基础上进行实体抽取训练与测试,选出人名、地名、时间实体识别效果的调和平均数最大(87.37%)的模型,并将其应用于《国语》语料以便检验识别效果,同时将以上过程进行可视化展现。图8。表11。参考文献13。
2017
李斌, 陈静, LiBin, and ChenJing. 2017. “基于《日本语源大辞典》的汉源日词历时分析.” 南京师范大学文学院学报, 3, Pp. 177-183.Abstract
汉源日词是语言学的重要研究对象,能够揭示出汉字词对日语词汇发展的影响。本文基于日本出版的《日本语源大辞典》中所收录的6000多个词语,人工录入和标注词条的年代、词性、汉字比例和与汉词词义相似度等信息建立数据库。统计得出,在词典的所有词项中,词语出现数量最多的朝代分别是奈良时代、平安时代以及江户时代。同时,词典中能写成全汉字的词占一半以上,而包含汉字的日词则占词典的九成以上。最后,从社会历史方面探讨新词产生及汉字词比例涨落的原因。
2017. “李斌:《词语认知属性的知识库构建和应用》.” 南京师范大学文学院学报, 4, Pp. 195.Abstract
<正>《词语认知属性的知识库构建和应用》针对汉语词义计算的关键问题"词义的知识表示和获取方法",进行了多角度的研究。在认知语义学和计算理论的指导下,作者将计算机处理词义所需要的知识划分为三种,即百科知识、日常感知知识(常识)和语言知识,
2016
尚芬芬, 顾彦慧, 戴茹冰, 李斌, 周俊生, and 曲维光. 2016. “基于《现代汉语语义词典》的未登录词语义预测研究.” 北京大学学报(自然科学版), 52, 1, Pp. 10-16.Abstract
基于《现代汉语语义词典》,首先建立不同语义层次的词典,根据词典分别构建模型并进行语义预测,然后将各个模型进行集成,通过集成模型再对未登录词进行语义预测,得到较好的预测性能。利用预测模型对2000年《人民日报》语料进行未登录词语义预测和标注,最终得到带有未登录词语义义项标注的语料资源。
李斌, 宋丽, 银思琪, 曲维光, and 王萌. 2016. “基于认知属性库的原型范畴研究.” 中文信息学报, 30, 06, Pp. 108-117.Abstract
原型范畴是认知科学研究中的重要理论,使用属性来区分范畴中心成员及边缘成员有着较强的解释力,但该理论一直缺乏基于频率信息的属性数据支撑。该文借助认知属性库的23万条数据,对原型理论研究中经常讨论的"鸟"、"水果"、"交通工具"等范畴的典型成员和非典型成员进行分析验证。认知属性库的数据显示,在汉语中,"鸟"的典型成员是"麻雀"、"燕子"等,和"鸟"具有较多的共同属性;而"企鹅"、"鸵鸟"则只共享了"鸟"很少的属性,且缺少关键的属性"飞"。大体上验证了原型理论的观点。同时,我们也发现"小鸟"的属性特别丰富,具有典型成员的特性。在进一步观察了"水果"和"交通工具"两个范畴后,我们探讨了范畴的跨类现象,进而从数学模型上区分了树结构的层次分类体系和图结构的范畴化体系。
2013
刘浏, 李斌, 曲维光, and 陈小荷. 2013. “先秦词汇的时代特征自动获取及文献时代的自动判定.” 中文信息学报, 27, 5, Pp. 107-114.Abstract
Words property of times shows rules of how a word changes in a particular times. We divide the Pre-Qin times into three parts as Pre-Chunqiu, Chunqiu and Zhanguo. We find out and focus on three kinds of words which are only in a times, popular in a times and arised in a times. We also propose methods using VSM and Naive Bayes Classifier to decide the times of a text with which we experiment on 25 texts of Pre-Qin. The latter one s result turn out much better. With the same method we verified that Lie Zi is not written in Pre-Qin.Key wordsPre-Qin words; times; VSM; Naive Bayes classifier
2012
李斌, 陈家骏, and 陈小荷. 2012. “基于互联网的汉语认知属性获取及分析.” 语言文字应用, 3, Pp. 134-143.Abstract
认知语义学强调词语的日常感知意义的描写,但传统的人工描写方式存在搜集难度大、主观性过强两大困难。本文基于互联网数据,利用知网收录的51020个名词、27901个动词和12252个形容词自动采集词语的认知属性,得到120多万条原始记录。对这些结果按词类进行详细的频率统计和数据分析,构建了6000多词条的汉语常用词语的认知属性库,尝试了夸张和反讽的自动生成。该研究可应用于计算机理解和生成修辞表达、语言教学、词典编纂和机器翻译等领域。
2011
李斌[1]. 2011. “词语搭配及动宾搭配研究述评.” 南京师范大学文学院学报, 4, Pp. 168-173.Abstract
词语搭配是现代语言学研究的重要课题,各语言学流派都对词语搭配特别是动宾搭配有着诸多论述。本文对国内外语言学界在词语搭配及动宾搭配方面的重要研究进行了评述,总结了搭配研究的发展趋势和存在问题。
2010
2010. “基于动词的汉语复合名词短语释义研究.” 中文信息学报, 24, 6, Pp. 3-10.Abstract
Noun compound interpretation is to recover the implicit semantic relation between the head and modifier. In this paper, we present a dynamic approach to use paraphrasing verbs to interpret the meaning of Chinese noun compounds automatically for the first time in the literature. The experimental results show that this approach not only provides the possible interpretations for one noun compound, but also reflects the subtle semantic differences of similar noun compounds. In addition, our research can be applied in some other fields such as question answering, information retrieval and lexicography. Key wordsChinese noun compounds;interpretation;paraphrase;paraphrasing verbs
2009
李斌 and 陈小荷. 2009. “汉语褒贬词语的褒贬指向问题.” 语言文字应用, 3, Pp. 136-143.Abstract
摘 要: 本文着重探讨汉语中带有褒贬色彩的词语的褒贬指向问题。在句法成分、配价、语义角色、褒贬态度三元组(评价者-褒贬态度-褒贬对象)的框架下,分析了992个褒贬词语(包括名词、动词、形容词、副词)的褒贬指向,重点区分了二价词语的说话人对施事的态度和施事对受事的态度。该分析可以应用于句子或语篇的态度计算,也可以应用于机器翻译中的译词选择、语言教学和词典编纂等领域。
2008
李斌, 于丽丽, and 石民. 2008. “基于CRF的汉语动词“像”的比喻义识别.” In 第四届全国学生计算语言学研讨会会议论文集.Abstract
汉语隐喻计算是一项难度很大的工作,明喻由于带有明显的比喻标志(比喻词),成为一种较理想的用于计算机自动处理的比喻类型。本文着力于对动词“像”的比喻义自动识别,首先,利用程序提取出语料库中带有动词“像”的句子,人工判断是否为比喻句;然后用CRF模型进行训练和测试,开放测试F值达到了83.3%,为隐喻计算的后续工作的展开奠定了的基础。
2007
程月, 陈小荷, and 李斌. 2007. “基于义类信息的动宾搭配的考察与实验.” In 中文信息处理国际会议.Abstract
本文基于《同义词词林》的义类信息,对动宾搭配短语进行了相关考察与实验。主要从100万字的清华汉语树库(TCT973)中抽取两种类型的动宾搭配词对,共计50611对次(tokens)。考察了高频双字动词所带宾语的义类分布情况,并基于义类信息对依存树库中的动词进行了动宾搭配识别实验,以“发展”为例讨论了义类信息的效用与不足。
李斌, 卢俊之, 章成志, and 陈小荷. 2007. “基于聚类引擎的话题褒贬度计算.” In 全国计算语言学学术会议.Abstract
互联网是人们表达各种观点的重 要媒介,自动获取网络上对话题的褒贬态度是自然语言处理的一项新兴课题。本文提出了利用两种搜索引擎进行话题褒贬态度计算的方法。首先,利用聚类引擎近似 地得到话题的若干子话题。然后,使用 PMI 算法利用关键词检索的搜索引擎计算出子话题的褒贬度,进而利用多语搜索引擎和地区搜索观察同一话题的跨语言分布和地区分布情况。该方法可用于搜索结果优 化、话题分析、产品跟踪等领域。
2006
李斌, 方芳, LiBin, and Fang Fang. 2006. “中文单字国名简称的自动识别.” 计算机工程与应用, 42, 28, Pp. 167-169.Abstract
摘 要: 单字地名简称识别是中文专名识别的重要组成部分,其中单字国名简称又占到了78.43%。但 就现有的词性标注系统来看,还不能很好地对其进行识别。文章提出了一个基于规则的识别方法,以分词文本为底本,通过两次扫描,第一次扫描建立基于语篇的临 时国名词表,第二次扫描利用上下文特征词等评分机制,从分词碎片中召回单字国名简称。在封闭测试和开放测试中,都取得了较好的实验结果,以人工分词文本为 输入底本,调和平均值分别达到了96.33%和94.96%。
2006. “基于语料库的高频最大交集型歧义字段考察.” 中文信息学报, 20, 1, Pp. 1-6.Abstract
摘 要: 交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上也与词典规模基本成正比。然后,在4亿字人民日报语料中采集出高频MOAS14906条,并随机抽取了1354270条带有上下文信息的实例进行人工判定。数据分析表明,约70%的真歧义MOAS存在着强势切分现象,并给出了相应的消歧策略。
李斌 and 陈小荷. 2006. “面向中文陌生文本的人机交互式分词方法.” In 学生计算语言学研讨会.Abstract
本文提出了面向中文陌生文本的人机交互式分词方法,在没有分词底表和训练语料等语言知识的条件下,由系统自动地发现未登录词,提交给用户进行增删,不断重复此过程,反复获取文本中的词语,最后进行最大匹配法分词。四个不同语料的实验显示,在没有人机交互的条件下,可以得到72%(F值)左右的分词精度。经过较少的人机交互,可以使分词F值提高12%以上。随着用户工作量的增加,系统还能够进一步提高分词效果。