10分钟解锁搜索引擎背后的秘密：关于SEO的4个知识点

发布日期：2018-05-22 作者：点击：

10 分钟解锁搜索引擎背后的秘密：关于SEO的 4 个知识点

提起Search Engine Optimization（SEO），想必大家一定熟悉又陌生。SEO是最先被我们所熟悉的数字营销概念之一。酒店市场部或数字营销负责人在每月或每季度，也会收到来自总部的SEO报告；那为何又用 “陌生” 来形容它呢？

是因为从业以来，笔者发现，大多数酒店市场部或数字营销负责人仅对SEO的部分概念和术语有所了解，而对搜索引擎如何工作，如何解读日常所接触到的SEO报告，如何发现问题，如何进行优化存在诸多盲点，对于如何针对酒店自身情况制定SEO策略，更是无从下手。

那么从今天起，笔者将通过一个系列文章，力争为大家梳理SEO知识点，希望大家在读完该系列文章后，能够获得些许启发，更好地为所任职酒店服务。

我们先来了解一些基础内容，大家是否曾思考过以下问题：

SEO是什么？我们如何去定义它？
为什么要做SEO？
移动互联时代，还需要做SEO吗？
搜索引擎的工作原理是什么？在简单的 “输入-搜索” 这几步简单的操作后，搜索引擎是如何从海量的数据中，找寻到我们所需要的内容，并展现给我们的？

带着这些疑问，一起√get今天的知识吧！

知识点1：SEO是什么？我们如何定义它？

SEO的全称是 “Search Engine Optimization”，中文译为 “搜索引擎优化”。

简单地理解，SEO是一个从自然搜索结果中获取网站流量的手段和过程；
更加严谨地去定义的话，SEO是一个 “在了解搜索引擎自然排名机制的基础上，对网站进行内部和外部的调整和优化，改进网站在搜索引擎中的关键词自然排名，以便争夺流量，进而促成网站销售或品牌曝光” 的一个过程。

知识点2：为什么要做SEO？

网站所有者都希望自己的网站流量越大越好，无论网站盈利模式和目标是什么，有人访问是前提。SEO则是给网站带来访问者的最好方法。让我们一起来了解一下SEO的 “优势”：

低成本：虽可能会产生费用，但成本相对较低
高回报：来自SEO的用户多数情况下是在 “主动地找寻” 酒店，目标非常精准
可迁移：搜索引擎是用户搜索、比较、购买商品的重要渠道，即便移动互联网发展迅猛，SEO核心仍在，只不过载体有所变化
够持久：精准广告投放、付费搜索等类型推广模式，一旦停止投放，流量将急剧下降；线上活动等事件营销效果明显，但话题过后流量随即下降。而搜索排名一旦上去，可相对稳定地维持比较久的时间，流量也因此会源源不断地输送过来
可扩展：掌握关键词研究和内容扩展方法后，我们可以持续地，为网站增加目标关键词及流量

知识点3：移动互联时代，还需要做SEO吗？

让我们来看一些行业调查数据，了解一下SEO是否还有效？

2017 年上半年，即时通信、搜索引擎、网络新闻作为基础的互联网应用，用户规模趋于稳定，搜索引擎应用继续保持移动化趋势。
虽然即时通信作为移动互联网流量核心入口的地位已经确立。在新网民各类应用中的渗透率排名第一，高于排名第二的搜索引擎16. 9 个百分点，但搜索引擎在目前仍旧稳居第二位。
截至 2017 年6 月，我国搜索引擎用户规模达 6.09 亿，使用率为81.1%，用户规模较 2016 年底增加707 万，增长率为 1.2%

数据取自《 2017 中国互联网络发展状况统计报告》

知识点4：搜索引擎的工作原理？

面对数以万亿的信息，搜索引擎如何做到在 1 秒钟甚至更短的时间内，返回我们想要的内容？回答这个问题，需要对搜索引擎工作原理做个分解，大致分为 3 个阶段：

爬行和抓取：搜索引擎程序通过访问网页，获得页面HTML代码存入数据库
预处理：程序对数据库网页进行一系列处理，为排名程序调用做准备
排名：用户输入关键词后，程序调用预处理好的数据，计算相关性，生成结果

首先看第一阶段，即 “爬行和抓取”

对于搜索引擎来说，首要任务是完成对互联网内网页数据收集。而用于数据收集的工具，就是我们常常听到的 “蜘蛛”，它是搜索引擎用来爬行和访问页面的程序。蜘蛛发出页面访问请求后，服务器返回HTML代码，蜘蛛把收到的代码存入数据库中。蜘蛛会对链接进行跟踪，根据一个页面上的链接，爬行（读取）至下一个，这也是为什么被人称之为 “蜘蛛”。

在数据收集过程中，聪明的蜘蛛为了提升效率，避免重复读取网页数据，搜索引擎会建立地址库，记录 “被读取的”，和 “发现但未被读取的” 页面。构建原始页面数据库，以储存读取后的页面数据。

读取结束，构建好原始数据库后，搜索引擎将进行第二阶段的任务 - “预处理”。什么是 “预处理” 呢？原始数据库中存在数以万亿的网页数据，排名程序无法做到每时每刻，对数量如此庞大的数据进行分析，也就无法在1- 2 秒内返回搜索结果。因此必须处理这些数据，为最后排名程序调用做准备。

预处理的第一步是对数据进行筛选，去除无用的信息，提取文字。现在搜索引擎仍以文字内容为基础，数据库中的页面数据，除了我们在网页上看到的文字外，还包含HTML标签、JavaScript程序等无法用于排名的内容。程序需要去除这些无用信息，提取出可用于排名的内容。除文字外，程序也会提取出一些特殊的包含文字信息的代码，例如Meta标签中的文字、图片替代文字、Flash文件的替代文字、链接锚文字等。

随后，我们需要介绍一个小知识，即中文搜索引擎所独有的步骤 - “中文分词”。“词” 是程序处理数据、用户查询的单位和基础。与英文不同，搜索引擎必须区分用户搜索的中文内容里，哪几个字组成一个单词，才能进行下一步工作。

在分词过后，程序需要进行另一个步骤，即剔除 “停止词”。在任何语言里，都存在出现频率高，但对内容影响不大的词汇，例如中文 “的”、“啊”、“却”；英文中 “the” “a” “and” “to”“of”等。这些被称作 “停止词”，程序会去除这些停止词，使搜索内容更突出，减少程序计算上内耗。

紧接着，程序还会对网页数据进行去重，同一内容可能会重复发布在多个网站，为了避免将多篇重复的内容返回给拥护，所以需要在预先剔除重复内容。

在完成上述后，程序得到的是 “独特的，能反应页面主题的，以词汇为单位的” 内容，紧随其后，程序将正向索引。通过提取关键词，把内容转化成 “以关键词为单位” 的集合，同时记录关键词出现频次、格式（黑体、加粗锚文字）、位置（标题、页面段首、段尾）等属性。然后将其转化为如下结构，储存进数据库：

经 “正向索引” 后的数据，无法直接排名，因为同一关键词可能出现在多个文件中，所以聪明的程序猿们，发明了 “倒排索引” ，将文件重新构造为倒排索引：

现在，搜索引擎已经做好了随时处理用户搜索请求的准备，那么随之而来的，就是搜索引擎第三阶段的任务，即排名。

每当搜索引擎接受到用户搜索的内容后，会进行这样的处理：

分词（与预处理一样，将我们搜索的内容，划分为以“词”为基础组合）
剔除停止词（与预处理一样，剔除不相关词汇）
指令处理（搜索引擎默认是在关键词之间运用 “与”的逻辑）
拼写矫正（对程序检测判定为错误的内容，进行矫正）

经过以上处理并进行匹配后，程序会在倒排索引数据库中找出符合搜索内容关键词的文件集合。例如，搜索内容包括 “关键词1” “关键词2”，排名程序仅需要找到含有这 2 个关键词的文件，即 “文件2” “文件3”。

你可能会问，匹配成功的文件肯定有上千万，搜索引擎会对他们进行排名吗？答案是否定的。由于数量庞大，因此搜索引擎程序不会对这些庞大的数据进行处理，只会针对最重要的部分页面数据进行排名，此外用户通常也只会查看前两页搜索结果，因此，搜索引擎也不需要大费周折地去对所有数据进行排名。那么，怎样针对 “最重要的部分页面数据” 去排名呢，这里就要依赖于自身算法 - 相关性计算的帮助，该算法会计算某个页面数据与用户搜索内容的相关性，从而完成排名。

到这里，搜索引擎已基本完成用户的 “搜索请求”，但根据2/ 8 定律，约20%的搜索内容，占总搜索次数的80%左右。搜索引擎会把常见词汇的排名以及数据进行缓存，在用户搜索时会直接调用缓存数据，从而减少一系列庞大又耗能的步骤，缩短反馈时间、提升用户体验。

本文网址：http://www.wubadu.com/news/395.html

关键词：醴陵营销型网站建设,株洲营销型网站建设,长沙营销型网站建设

上一篇：百度SEO和谷歌SEO有什么区别？
下一篇：2018年网站SEO优化的八大精髓