倒排索引原理介绍

互联网上每天都有海量的内容在产生与更新,搜索引擎对其抓取索引,其中倒排索引是其中非常重要的一环。

 

可以说,正确的理解倒排索引的原理,可以对我们网站的优化做出适当的调整与优化。

 

本文目录:

1.倒排索引原理;

2.理解倒排索引;

3.倒排索引对网站优化的作用;

 

一、倒排索引原理:

倒排索引原理:索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引。

 

带有倒排索引的文件我们称为倒排索引文件,简称倒排文件。

 

倒排索引是实现单词—文档矩阵的一种具体存储形式。

 

通过倒排索引,可以根据单词快速获取包含这个的文档列表。

 

倒排索引主要由:单词词典和倒排文件组成。

 

二、理解倒排索引:
我们先来看3组文档,我们将文档编号分别列为1、2、3。

 

文档

 

这3个文档里,核心词是“卫生间隔断”,如果你在搜索引擎上,直接搜索卫生间隔断,抛开文章内容,单看标题,哪个排第一?

 

没错,就是文档1会出现在第一位,为什么?

 

因为倒排索引里,会通过单词词典,统计一个单词在文档里出现的位置。

 

我们将上述文档里出现的词,都赋予一个ID。

 

这是一个最简单的倒排索引示意图:

 

倒排索引示意图

 

之所以说上图是个最简单的倒排索引示意图,是因为它只记载了哪些文档包含了哪些单词。

 

接下来,我们在看看一个稍微复杂些的示意图:

 

倒排索引详细示意图

 

除了出现文档包含的单词,还记录了文档出现单词的次数。

 

接下来,我们在看一个更接近完整的倒排索引示意图:

 

倒排索引完整示意图

 

该示意图,不仅包含了文档出现的单词次数,还包含了出现的位置。

 

有了这个较为完整的倒排索引,搜索引擎就可以更好的响应用户的需求。

 

三、倒排索引对网站优化的作用:

看完上面的,我们可以主要总结两点运用到优化工作上:

 

1.关键词出现的位置应该要尽量靠前,即靠左;

 

2.关键词出现的频率应该适当,既不应堆砌,也不过于稀少。

 

倒排索引相对应的还有正排索引,在搜索引擎实际应用过程中还有非常复杂的技术细节,大家也可以自行去研究更深层次的。

相关文章