信息检索及搜索引擎简介

首先,推荐大家学习《现代信息检索》、《搜索引擎技术》(作者李晓明等)、中科院信息检索课件(作者王斌)和《Introduction to Information Retrieva l》(作者D.Manning 等)这几本书。

信息检索能做什么?其实只有一件事:从一堆信息里面找出大概是你想要的一些。在之前的40 年里,这个工作一直都由数据库完成。回想一下,商业公司用数据库查询最近半月的营业额和查询购买超过10 万的大客户。所以:现代信息检索来源于数据库技术。

那现代信息检索技术和传统数据库技术相比有什么不同?

数据库难以处理维度很高的数据。我们知道,任何一个数据都可以映射到多维空间。比如数据库里面的记录,其实就是映射到了一个多维空间,其中,每个列是一个维度。

一些数据库能够定义最多1024 个维度(列),而这个值在许多应用里都很不够。数据库还难以处理空间范围查询,更不用说对数据进行挖掘了。

搜索引擎是一种信息检索系统,它通过计算机来完成信息检索的过程。本文将主要讨论搜索引擎应用技术。

有关信息检索和搜索引擎的历史和一些基本介绍,大家同样可以看answers 上面的介绍,地址为:

http://www.answers.com/search+engine?cat=technology

http://www.answers.com/topic/web-search-engine?cat=technology

这里提醒大家:搜索引擎有很多很多种,常用的百度和google 只是其中的一种(网络搜索引擎)。

常见的还有:企业搜索引擎、个人桌面搜索和最近很火爆的移动平台搜索引擎。

其中,只有基于网络的搜索引擎才需要蜘蛛技术。