信息检索模型决定了如何根据用户的要求从文档集中找出最相近的一些文档。信息检索模型在很多书籍中都是论述的重点,本处只是简略介绍一下。
信息检索有3 个经典的模型,分别是:布尔模型、向量模型和概率模型。
信息检索模型分类如下图所示:
其中,经典的检索模型已经被改进过很多次,比如,扩展布尔模型、推理网络模型等等。信息检索模型有很多种,但现在我们看到的商业搜索引擎系统使用的仍然是基本的布尔模型。
这主要是因为速度方面的原因虽然商业系统使用的一般都是布尔模型,但它们加入了很多计算文档权重的规则。比如,著名的PageRa nk 规则。
有人指出,google 计算网页权重的因子超过500 个。
