研讨搜索引擎的分词技能,无论是对用户的检索仍是对搜索引擎优化都具有非常重要的意义。分词又叫做切词,是将连续的自序列按照一定的规范从头组合成词序列的进程。
分词的原理:中文分词分类:
(1)依据字符串的匹配也便是机械分词法。机械分词法的原理是将查找栏的字符串与一个巨大的机器字典中的词进行匹配。常见的三种匹配办法:第一种是正向匹配,比如走路和气质,它会切分为走路、和气质。第二种是逆向匹配,假如用逆向匹配法走路和气质它会拆分为走路、和、气质。第三种是最少切分法,它是使每一句中切出的词数量最少,还可以将上述的办法相互结合。比如说双向匹配,一般来说逆向匹配的切分精度越高于正向匹配,遇到的歧义现象也比较少。
(2)依据理解的分词办法。指在分词的一起进行句法、语义的剖析,使用句法信息和语言信息来处理歧义现象。
(3)依据计算的分词办法。是依据汉字共同呈现的频率来分词。
以百度搜索引擎为例:百度搜索引擎有一个专有词典,分词时首要查询专有词典(人名、部分地名等),将专有名称切出,剩下的部分采纳双向分词战略,假如两者切分成果相同,说明没有歧义,直接输出分词成果。假如不一致,则输出最短路径的那个成果,假如长度相同,则挑选单字词少的那一组切分成果。相关阅读:描述标签对网站排名的影响
百度一起做出多种分词办法,首要不拆分进行查找,然后先辨认专有名词和新词,再对其余部分进行拆分,选用双向匹配的办法。