监控系统(错误恢复、日志系统)

首先,用户少或者机器少或者数据不重要的项目都不需要监控系统。错误恢复或许应该独立出来,但本处放到一起谈论。

最简单的错误恢复方式是:重新构建,重启服务器。

但这样做有2 个问题:1)重新构建时间很长;2)重启服务器导致服务暂时不可用。

对于第一个问题,也有2 种简单办法:1)完整备份;2)分段备份。

完整备份是说保留一个和搜索系统完全一样的备份。分段备份包括很多小分段,每个分段只包含了一部分的数据,在恢复错误的时候,只需要把从错误时间开始的数据合并到出错服务器上。

而重新启动服务器的解决方案就是双服务器方案,重启一个的时候,另外一个还能工作。

监控系统一般直接监控日志。故搜索系统应该有一个日志系统,专门记录各种日志。

监控系统通过分析日志,来判断系统的运营状况,并做出相应决定。

比如,判断服务器当机时重新启动搜索系统、服务器僵死时杀死搜索系统、服务器繁忙时提醒等等。其系统构架一般如下: