中文分词技术

现有的分词技术可分为三类:

基于字符串匹配的分词

基于理解的分词

基于统计的分词

这篇文章中使用的是基于字符串匹配的分词技术,这种技术也被称为机械分词。

它是按照一定的策略将待分析的汉字串与一个“充分大的”词库中的词条进行匹配。若在词库中找到某个字符串则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词法和分词与标注结合法。常用的几种机械分词方法如下:

正向最大匹配法(由左到右的方向)

逆向最大匹配法(由右到左的方向)