搜索引擎的工作原理是什么?

一个好的seoer,那必需得清楚的知道搜索引擎的工作原理是什么?用户在搜索一个关键词的时候,搜索引擎都做了哪些工作?本文主要围绕搜索引擎的工作原理展开介绍。

本文将讲解以下三个方面的内容,带你了解搜索引擎的工作原理:
1.抓取
2.索引
3.查询

一、抓取

下面的这张图,应该用过搜索引擎的人都非常的熟悉。

搜索结果
搜索结果

我们重点关注的是红框里面的玩意,我们可以看到,搜索“seo”的时候,百度为我们找到了四千多万的结果。那么这些搜索结果是怎么来的呢?

在您搜索之前,搜索引擎的抓取工具会从数千亿个网页中收集信息,然后在搜索索引中进行整理,最后展现给用户。

一般的,搜索引擎在你搜索某个关键词之前啊,都会先派一批小弟在互联网中到处的抓取各种类型的网页,只要能抓到都抓了。那抓取的流程是怎么样的呢?

抓取流程是从以往所抓取内容的网址列表和由网站所有者提供的站点地图开始的。在访问这些网站时,我们的抓取工具会使用网站上的链接来探索其他网页。该软件会特别关注新网站、对现有网站进行的更改以及无效链接。计算机程序会确定要抓取的网站、抓取频率以及要从每个网站中抓取的网页数量。

上面的是谷歌的抓取流程,百度的也差不多。

那么抓到的网页放在哪里呢?

肯定的是放在搜索引擎的服务器上面了。一般的只会存放网页的文字信息,至于其它的资源,比如图片、音视频、js、css这些是不做存储的。只会记录相关的信息。

那么抓取到内容只会该怎么处理呢?

二、索引

当抓取工具找到一个网页时,我们的系统就会像浏览器一样呈现该网页的内容。我们会记下关键信号(从关键字到网站新鲜度),然后会在 搜索引擎搜索索引中跟踪所有这些内容。

搜索索引中包含数千亿个网页,其大小远远超过 1 亿千兆字节。它就像图书后部的索引一样 - 编入索引的每个网页上出现的每个字词都对应着一个条目。在将某个网页编入索引时,系统会将该网页分别添加到其包含的所有字词的对应条目中。

借助知识图谱,我们将继续超越关键字匹配,以更好地了解您关注的人、地点和事物。为此,我们不仅要整理有关网页的信息,还要整理其他类型的信息。如今, 搜索引擎不仅可帮助您搜索大型图书馆内数百万册图书中的内容,查找当地公交公司的线路和车次安排,还可帮助您浏览世界银行等公开来源的数据。

注:其实在索引之前还是一个分析的步骤,还有做各种其他很多的工作,比如去重,提取正文,链接分析等等。搜索引擎用到的索引技术主要就是倒排索引技术

接下来,当我们搜索一个关键词的时候,搜索引擎都干了些什么?

三、查询

第一步:分析你的关键词

理解搜索字词的含义对于返回优质结果至关重要。因此,为了找到包含相关信息的页面,搜索引擎的第一步就是分析您的搜索查询中的字词的含义。搜索引擎创建了语言模型,试图了解应该使用关键词的哪些部分在索引中进行查询。

理解搜索字词的含义对于返回优质结果至关重要。因此,为了找到包含相关信息的页面,搜索引擎的第一步就是分析您的搜索查询中的字词的含义。搜索引擎创建了语言模型,试图了解应该使用关键词的哪些部分在索引中进行查询。

这会涉及到看起来如同解析拼写错误一样简单的步骤,并会扩展到通过将自然语言理解方面的部分最新研究成果付诸应用来尝试理解您输入的查询的类型。

搜索字词
搜索字词

第二步:与搜索内容相符

接下来,搜索引擎会寻找包含与相应查询匹配的信息的网页。当您搜索时,在最基本的层面上,搜索算法会在索引中查询您的搜索关键词以找到适当的网页。这些算法会分析相关关键字在某个网页上(不论是在标题中还是在正文中)的出现频率和显示位置。

当某个网页中包含与您的搜索查询内容相同的关键字时,这是表示搜索到的信息可能与您要查找的内容相关的最基本信号。如果网页或者文本的标题或正文中出现这些关键字,则表示该信息与您要查找的内容相关的可能性更大了。

除了简单的关键字匹配之外,搜索引擎还使用经过汇总和匿名化处理的互动数据来评估搜索结果是否与查询内容相关。搜索引擎会将这些数据转换为信号,以协助机器学习系统更好地评估相关性。

除了匹配关键字,搜索引擎的算法还会寻找线索来衡量潜在搜索结果能从多大程度上满足用户的搜索需求。

当您搜索“狗”时,您想看到的应该不是含有数百个“狗”字的网页。搜索引擎会尽力确定网页是否包含与您的查询对应的答案(而非只是重复您的查询)。

因此,搜索算法会分析网页是否包含相关内容,例如狗的图片、视频,甚至是品种列表。(详细请看《搜索引擎之语义主题计算》)

最后,搜索引擎会检查网页所用的语言是否与您的查询所用的语言相同,以便优先显示采用您的首选语言的网页。

需要说明的是,尽管搜索引擎的系统确实会通过寻找这类可量化的信号来评估相关性,但并不会因此用于分析主观观念,例如分析网页内容的观点或政治倾向。

第三步:为实用(有价值)网页排名

对于一项典型的查询,含有可能相关的信息的网页会多达数千个甚至数百万个。因此,为了帮助将最符合需求的网页排在靠前的位置,搜索引擎编写了算法来评估这些网页的实用性。

这些算法会分析数百种不同的因素 - 从内容的新鲜度,到您的搜索关键词的出现次数以及网页能否提供出色的用户体验 - 以尽力呈现网络所能提供的最有用的信息。

为了评估内容在相关主题方面的可信度和权威性,同时会寻找那些看起来在类似查询中受到大量用户青睐的网站。如果与该主题相关的其他知名网站链接到了相应页面,则可充分说明此页面上的信息具有较高的品质。

网络中有很多垃圾网站会试图通过再三重复关键字或购买可提升 PageRank 的链接等各种不当手段,蒙混到搜索结果中靠前的位置。

这些网站提供的用户体验非常糟糕,甚至可能会伤害或误导搜索用户。因此,搜索引擎编写了算法来识别网络垃圾并将那些违反搜索引擎算法的作弊网站从结果中移除。

第四步:返回最佳结果

在为您提供结果之前,搜索引擎会评估所有相关信息的综合效果:这些搜索结果是只有一个主题,还是有很多主题?是否有过多的页面在着重探讨一条狭义的诠释?会根据您的搜索类型以最有用的格式提供一系列多样的信息。

此外,随着网络不断发展,搜索引擎会不断优化排名系统,以便为更多查询提供更优质的结果。

这些算法会通过分析相关信号来评估是否所有用户都能查看搜索结果。

例如:网站是否能在不同的浏览器中正常显示;网站是否适合各种类型和尺寸的设备(包括桌面设备、平板电脑和智能手机);以及网页加载时间对于互联网连接速度较慢的用户而言是否合适。

鉴于网站所有者可以提高其网站的易用性,搜索引擎会在对搜索算法做出重大更改时尽量提前通知网站。

第五步:考虑具体位置

比如我们搜索“天气”的时候,都会直接返回所在地的天气信息。

天气信息
天气信息

当然了,其实搜索结果中还有很多更加实用的功能和结果。

比如:
天气直接返回、搜索公交路线直接显示、百度的专业问答结果、知识图谱等等。都是为了方便用户直接获取到答案,而不用再进行二次点击进入网站查看。

最后,本文其实是将谷歌搜索的工作方式给拿下来修改了一点点。

具体的大家可以直接看谷歌官方原文:https://www.google.com/search/howsearchworks/

了解了一个其实其它大部分的商业化搜索引擎原理都差不多,也可以从中知道一些seo应该关注什么东西。

赞赏

微信赞赏支付宝赞赏

相关文章