2021年12月14日星期二

搜索引擎是一个现代的奇迹|林子超博客

 作者:跨境男孩

链接:https://zhuanlan.zhihu.com/p/422571034


从用户的角度来看,搜索引擎是一个现代的奇迹。在搜索框中键入查询,在大多数情况下,来自Web的结果会在毫秒内进行排序展示。

像谷歌这样的热门搜索引擎甚至直接在搜索结果中回答一些问题,这样既节省了时间又节省了点击次数。

Google 搜索结果

在此指南中,您将了解到:

  • 什么是搜索引擎
  • 搜索引擎的工作原理
  • 搜索引擎算法的作用
  • 谷歌搜索算法的偏好

什么是搜索引擎?

搜索引擎由两个主要内容组成:一个信息数据库,以及计算给定查询返回和排名结果的算法。

就谷歌这样的网络搜索引擎而言,该数据库由数万亿个网页组成,算法会查看数百个因素,以提供最相关的结果。


搜索引擎是如何工作的?

搜索引擎通过获取已知网址列表来工作(我们可以通过GSC主动提交),然后转到调度器调度器决定何时抓取每个URL。然后,爬行页面转到提取重要信息并索引重要信息的解析器解析链接转到调度器,该调度器优先处理器爬行重新爬行

当您搜索某些内容时,搜索引擎会返回匹配的页面,算法会根据相关性对它们进行排名。


Google搜索引擎的工作流程


首先,让我们深入探讨用于构建和维护Web索引的机制,以确保我们了解这些机制的工作原理。这些是调度、爬行、分析索引。

注:此过程仅适用于谷歌、必应等网络搜索引擎。还有其他类型的搜索引擎,如亚马逊,YouTube,只显示他们的网站的结果。

调度(Scheduling)

调度器评估新网址和已知网址的相对重要性。然后,它决定何时抓取新的网址,以及重新抓取已知网址的频率。

爬行(Crawling)

爬行器(蜘蛛)是一个下载网页的计算机程序。搜索引擎通过定期重新爬行已知页面来发现新内容,这些页面通常会随着时间的推移添加新链接。

例如,每次我们发布一篇新的博客文章时,它都会被推到博客主页的顶部,那里有一个链接。


一篇新的博客在页面顶部


当像谷歌这样的搜索引擎重新抓取该页面时,它会使用最近添加的链接下载页面的内容。

然后,爬行器将下载的网页传递给解析器。

解析(Parsing)

解析器从页面中提取链接以及其他关键信息。然后,它将提取的URL发送到调度器,并提取数据进行索引。

索引(Indexing)

索引是将来自爬行页面的解析信息添加到称为搜索索引的数据库的地方。

将此视为一个关于数万亿个网页的信息数字库。


什么是搜索引擎算法?

发现和索引内容只是谜题的第一部分。搜索引擎还需要一种方法来对用户执行搜索时的匹配结果进行排名。这是搜索引擎算法的工作。

每个搜索引擎都有用于对网页进行排名的独特算法。但是,由于谷歌是迄今为止使用最广泛的搜索引擎,这就是我们在本指南的剩余部分将重点关注的内容。

谷歌是如何运作的?

谷歌的工作方式与上述方式大致相同。它爬网并索引它找到的内容。然后,当您搜索某样东西时,它会找到匹配的结果,并在几分之一秒内按相关性对它们进行算法排名。

Google 搜索结果数量

谷歌作为一个搜索引擎工作得很好,因为有三件事:

首先,他们爬行和重新爬行的规模比任何工具或系统都大。这使得他们能够建立和维持地球上最大和最新的指数。

其次,他们在语言模型上投入了大量资金,使他们能够理解即使是最晦涩或不正确的查询背后的真正含义。

例如,他们明白,你搜索“now york restaont”是“NewYork Restaurant”

搜索错误纠正

第三,也是最关键的,Google的排名算法返回的结果,应该是所有搜索引擎中最相关。

谷歌搜索算法的偏好

谷歌查看了数百个因素来查找和排名相关内容。没有人知道所有这些是什么,但我们知道一些关键因素。

让我们讨论一下其中的几个:

主题相关性

Google指出,当网页包含与搜索查询相同的关键字时,尤其是在标题等显要位置,那么这就是相关性的标志。

但这个想法并非万无一失,这就是为什么谷歌也会在页面上寻找其他相关词语的存在。

以下是谷歌的解释:

试想一下:当你搜索"dog"时,你可能不想要"dog"出现上百次的页面。有鉴于此,算法会评估页面是否包含关键字"dog"以外的其他相关内容,例如狗的照片、视频,甚至品种列表。

再举一个例子,假设您有一篇关于“how to get a driver’slicense.”的文章。它可能应该有关于汽车,摩托车和公共汽车的许可,并提到单词和短语,如road,driving, license, exam, safety, 和full-privilegelicense.

诸如此类的相关词语和短语的存在可能有助于增强Google对页面内容的认可。

搜索意图

谷歌知道人们进行搜索是有原因的,理解这个原因有助于他们返回更好的搜索结果,并创造更满意的用户。

换句话说,他们努力对用户期望看到的内容进行排名。

这就是为什么所有"iPhone X unboxing"的首条结果都是视频。

iPhone X unboxing 展示结果

"iPhone X box"的首条结果是图片。

iPhone X box 展示结果

谷歌明白,尽管使用了类似的语言,但这些搜索背后的意图完全不同。他们努力提供与用户希望看到的内容风格(content style)、内容类型(content type,)、内容格式(content format)和内容立场(content angle)相匹配的结果。

这些称为搜索意图的4C。

内容样式

内容样式可分为三种类型:视频、图像和基于文本的内容。

对于大多数查询,结果中占主导地位和最理想的内容风格是相当明确的。对于其他人,如"pink roses",谷歌明白,意图是不确定的,并显示多种风格的内容。

pink roses搜索结果


内容类型

内容类型通常分为四种类型:blog posts, product, category, 和landing page。

例如,“how to start a blog”的所有结果都是博客文章。


“how to start a blog” 搜索结果


内容格式

内容格式主要适用于博客文章、视频和登陆页面。对于博客文章,常见的风格是"how to's",列出帖子,教程,意见文章和新闻文章。

"blogging tips"的所有结果都是列表帖子。


"blogging tips"搜索结果


对于着陆页,该格式可能是交互式计算器、工具、或者其他网站页面。

内容立场

内容立场是指内容的主要卖点,针对的是哪一类人群。对于大多数查询,搜索结果中有一个占主导地位的立场。

例如,"blogging tips"的大多数结果都集中在初学者上。

"blogging tips"搜索结果

时效性

谷歌知道,对于某些搜索来说,结果的时效性比搜索更重要。

例如,像"what's new on netflix"(netflix是国外知名的视频内容平台,类似于爱奇艺)这样的查询需要新的结果,因为搜索者想知道最近新发行到视频平台的电影和电视节目。因此,Google优先考虑最近发布或更新的搜索结果。

"what's new on netflix"搜索结果

对于像"best headphones"这样的疑问,时效性仍然很重要——但没那么重要。换句话说,2015年的列表不太可能有太大用处,因为耳机技术发展很快。但不至于快到上个月发表的帖子内容就没有相关性了。

谷歌知道这一点,并显示过去几个月更新或发布的结果。

"best headphones"搜索结果

也有疑问,结果的时效性大多无关紧要,如"how to tie a tie"。几十年来,这个过程没有任何变化,所以搜索结果是来自昨天还是1998年并不重要。谷歌知道这一点,并毫不犹豫地将2013年的结果排在#2的位置。

"how to tie a tie"搜索结果

内容质量

谷歌希望将高质量的内容排在低质量内容的前面。问题是,内容质量在客观上很难确定,因此谷歌在尝试这样做时,会关注一种叫做E-A-T的东西。

什么是E-A-T?

  • Expertise专业性
  • Authoritativeness权威性
  • Trust信任度

简而言之,以下是E-A-T的工作原理:

比方说,你搜索“howto write a song”如果有选择的话,肯定会选更专业的人如:Beyonce。为什么?因为Beyonce是一个歌曲创作专家权威人物,你相信他会给你有用的建议。

现在,虽然E-A-T对于所有查询都很重要,谷歌还有一个搜索算法,谷歌这称之为“YMYL”或者“Your Money or Your Life”

谷歌表示,YMYL查询可能会影响一个人未来的幸福感、健康、财务稳定或安全。

例如,采取查询,如“safe dosage of ibuprofen?”

这种涉及生命安全的问题,谷歌是非常谨慎的。在这种情况下,得到的搜索结果无法证明还可能会危及生命。如果一个页面不准确,那么它不应该出现在搜索结果中——不管它恰好有多"相关"。

话虽如此,内容本身并不是影响E-A-T的唯一因素。指向页面的外链等内容也很重要。

将外链视为来自其他网站的投票。当某人链接到页面时,他们会为该内容进行担保,并将其推荐给读者。

这大概就是为什么大多数大规模研究表明外链和排名之间有明显的相关性

一般情况下外链与流量成正比

这就是说,重要的是要注意,并非所有的外链都是一样的。链接网站和网页的相关性和权威性也很重要。

例如,比如说你有一篇关于创业的文章。谷歌将更重视你的链接出现在管理局的指南上,而不是来自于你昨天才新建的网站。

可用性

谷歌会对让用户满意的网页进行排名,这远远超出了返回相关结果的范围。内容还需要易于访问且易于使用。

页面速度

没有人喜欢等待页面加载,谷歌知道这一点。这就是为什么他们把页面速度作为2010年桌面搜索的排名因素,随后在2018年将移动搜索作为排名因素。

移动友好型

65%的Google搜索发生在移动设备上,这解释了为什么移动友好性是截至2015年移动搜索的排名因素。

而且,自2019年7月以来,移动友好也是桌面搜索的排名因素。

个性化

Google指出,"您的位置、过去的搜索历史记录和搜索设置等信息都有助于[我们]根据您在那一刻最有用和最相关的内容调整您的结果。

例如,搜索"best Mexican restaurant"会使用您的位置返回本地结果


Google基于位置信息的搜索结果

这是因为谷歌知道你不太可能为了吃饭去订一张机票。

对于像"buy a house"这样的查询来说,情况也差不多。谷歌返回页面与本地列表。

Google基于位置信息的搜索结果

语言是另一个重要因素。毕竟向西班牙用户显示英语结果是没有意义的。这一点对做小语种的网站比较好,因为竞争会少很多,你的网站排到首页的难度会小很多。

Google 基于语言的搜索结果


总结‍‍

以上是Google SEO的一些基础内容,你已经了解了Google的基本原理以及Google的搜索偏好,听起来不是很难,但你需要付出很多的时间和努力。

随着技术的发展,使用作弊的手段获得的排名是不可靠的,不长久的。只有真正做好直接相关的内容,才能获得Google的信任。前面长时间的坚持是困难的,但后面稳定的流量会让你坐享其成

没有评论:

发表评论

注意:只有此博客的成员才能发布评论。

Also Read: