• 当前位置
  • 首页
  • IT技术
  • 文章正文

seo基本原理 简述搜索引擎工作的原理

  • 作者:自动秒收录
  • IT技术
  • 发布时间:2023-12-17 13:38:44
  • 热度:

seo基本原理

浅谈搜索引擎的工作原理

前面2期介绍SEO的时候就讲到了关于SEO的基本定义,这里再次简单回顾下吧!

SEO(搜索引擎优化)

SEO(搜索引擎优化)通常定义为:在了解搜索引擎的工作原理基础上,对网站进行内外调整优化,提高网站关键词排名,获得更多流量,达成网站的营销目的。通过这一定义,我们可以看到,做SEO首先需要知道我们搜索引擎的工作原理是怎样的,只有搞清楚它的原理,我们才可以本着这一原理进行做后期优化工作。这就是今天这一期重点和大家分享的话题:搜索引擎的工作原理!

由于搜索引擎这一块的专业知识涉及很广,可以单独作为一门学科来系统化学习的,所以建议新手刚开始学SEO的时候可以先多学习下搜索引擎这一块知识哦,也可以自己买本搜索引擎原理的书籍看看也行,只有理解了搜索引擎的工作原理后,我们对后期优化工作才有了明确的方向!

搜索引擎的工作原理

首先搜索引擎的工作原理大体上分为三个阶段:

  1. 爬行与抓取:搜索引擎蜘蛛(Spider)通过跟踪链接发现和访问页面,然后读取HTML代码,存入数据库中;
  2. 预处理:搜索引擎蜘蛛抓取来的页面数据进行文字提取,中文分词,索引(正向索引),倒排索引等,以备后面排名和展现;
  3. 排名:通过一定的搜索相关性计算,按照一定格式生成搜索结果页面。

搜索引擎的工作原理

针对这三个阶段详细说下搜索引擎的工作原理:

爬行与抓取

1、跟踪链接:一般是深度优先和广度优先两种跟踪方式,如图所示:

深度优先跟踪链接

广度优先跟踪链接

理论上,无论是哪种跟踪方式,只要给蜘蛛足够多时间,都能爬完整个互联网上的链接,但实际上,蜘蛛的宽带资源和时间都是非常有限的,不可能爬完所有的链接,最多只能爬行和收录一小部分,所以我们做SEO工作就需要主动吸引蜘蛛来爬行和收录我们的页面。

2、吸引蜘蛛:哪些页面可以吸引到蜘蛛呢?符合以下几点就足以。

  • 第一,网站和页面权重。权重越高,蜘蛛就越喜欢,尤其是老网站,质量高的网站;
  • 第二,页面更新频率。蜘蛛喜欢新鲜事物,所以网站这一块也需要经常多跟新;
  • 第三,导入链接。无论是外链还是内链,只要多给蜘蛛爬行页面的路径,页面收录率和排名会更高;
  • 第四,与首页点击距离。一般网站首页权重最高,所以页面里首页的点击距离越近,爬行和收录机会更高;
  • 第五,URL结构。首先符合静态化最好,其次URL越短,层次越少,蜘蛛爬行的机会就更大些,页面收录机会也就更大。

预处理

这里所说的预处理包括:提取文字,中文分词,去停止词,消除噪声,去重,正向索引,倒排索引,链接关系计算,特殊文件处理以及质量判断等等,由于内容过多,这里不多做详细说明,主要讲下正向索引和倒排索引这两块核心内容,有些书籍把预处理这一阶段定义为索引,其实也是说明了正向索引和倒排索引的重点,首先看下面示意图:

正向索引结构

倒排索引结构

上图中文件就是指页面了,关键词就是与用户所搜索的词相匹配的关键词,这里的关键词是搜索引擎内部存储的关键词,也是基于过去用户所搜索过的词,进行一次收集和整理所得出来的。通过对比两种索引结构就可以看出,倒排索引更能符合搜索引擎的工作要求,当用户搜索某一关键词时候,搜索引擎系统内部便能一次性直接导出与关键词相匹配的页面,然后再通过链接相关性计算,特殊文件处理,页面质量判断得出哪些页面可以用作搜索结果页面中,最后以排名的方式显示出来。

排名

进行预处理过后,尤其是倒排索引处理之后,然后对用户搜索词处理以及相应的文件匹配,得出初始文件的子集,这里的初始文件子集并不能直接用于排名,还要进行相关性计算,排名过滤和调整,最终显示出页面的排名结果。这里的相关性计算,主要是根据关键词常用程度、词频和密度、关键词位置及形式、关键词距离、链接分析及页面权重等来得出页面的内容是否和用户搜索的词高度相关。

好了,关于搜索引擎的工作原理大致上就说这么多了,其实还有很多详细地方没有具体说到,由于涉及过广,大家可以多了解下搜索引擎这一块的内容,可以借助相关书籍来系统学习这一块的内容哦!本期的SEO分享就到这里了,大家有任何问题和想法都可以在评论下方留言咨询哦!

什么是seo搜索原理,如何做seo优化

做seo很大程度是做关键词排名。把关键词做到首页是做seo的基本目标,有首页排名才有更好的展现机会,才可能有更好的转化率。

一、搜索原理

网络蜘蛛即WebSpider,如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到该网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

1、抓取

搜索引擎会和普通访问者一样,顺着网页上的链接一个个下载我们的网页,为下一步的预处理做准备。

2、预处理

①。判断是否符合其收录规则,符合收录规则的再继续处理

②。对文章进行分词处理

把网页中的文章切成一个个的词语。度量文档之间的相关性,以及为建立倒排索引做准备。并记录词出现的位置。

③。建立倒排索引

在搜索引擎中每个文件都对应一个文件ID,文件内容被表示为一系列关键词的集合

把文件ID对应到关键词的映射转换为关键词到文件ID的映射。

用词来索引网页,好处在于:搜索引擎的用户输入的也是词,这样可以方便地查找到相关的网页。

3、检索

①。对用户查询的关键词进行分词,取索引的交集

②。排序

重要性——网页静态质量得分。搜索引擎把网站的各种表现情况转换成一个个分值,这些分值加起来,就得到一个页面的质量得分,即所谓的权重。

a、页面信噪比:

页面信噪比是指页面内正文与非正文的比例,页面信噪比至少要大于1。

b、稀缺性

c、链接控制:

链接控制分链接数量和链接自然性。一个页面权重是固定的,链接可以传递权重,链接越多,每一个链接传递的权重越低。

d、页面的浏览量

相关性——上面通过倒排索引只能定性地知道网页和查询词之间是否相关,但谁更相关即定量是没办法知道的。百度处理方式:

a、记录词出现的位置,不同位置的关键词权重不同。

b、tf-idf算法,即一个词在一篇文章中出现的次数最多,这个词的权重越高;一个词在整个互联网中出现的次数越多,(如“我”、“的”这种词,对于一篇文章主题的鉴别能力不强,每篇文章几乎都出现)这个词的权重越小。

4、常用的高级搜索指令:

site:SEO最熟悉的高级搜索指令,用来搜索某个域名下的所有文件。

inurl:指令用于搜索查询词出现在url中的页面。

intitle:指令返回的是页面title中包含关键词的页面。

domain:其作用就是来查询域名下的反链(反链=外链+内链)。

二、索引排名

1、收录与索引

收录:页面被Baiduspider发现、分析过

索引:Baiduspider经初步分析后认为有意义,做建库处理

收录索引的关系是包含关系,先收录才可以建索引,收录量大于索引量。

百度表示第三方提供的所谓收录查询都是不靠谱的。

1-1、索引文章的决定因素:

信任度;

文章质量;

更新频率;

网站结构;

熊掌号、站点地图对百度收录有促进效果;

网站的年龄以及权重影响着百度对网站的收录效果。

1-2、加快页面索引方法:

做好网站TDK,并不要修改;

积累高质量网站内容;

每日定时定量的更新;

提交百度等搜索引擎,包括sitemap、熊掌号等;

重点做好熊掌号,目前熊掌号提交已能实现移动站收录80%以上;

有针对性并有规律地发布高质量外链。

2、文章质量判断(百度官方)

①。受众

受众群体的大小,即代表了用户检索需求的大小。

②。稀缺

稀缺主要是描述页面在互联网中的独特性。

③。质量

a不能是死链、网站访问速度是否令人满意。

b主体内容是否完整、版式和字体是否易读、各类广告会不会太多。

c信息是否丰富、延伸出的次级需求是否满足。

④。时效

3、原创识别判断

①。发布时间——蜘蛛抓取的日期

②。锚文本链接——网站页面外链的多少

③。信息指纹——文章内容雷同相似的程度

4、标题优化方法

从搜索引擎搜索到的内容的标题往往是网页title的内容,搜索引擎给予标题的权重很高。

①。标题通顺、吸引人、符合文章实际。

②。标题一定要原创,包含核心关键词和长尾词,与内容关键词保持一致

③。写作要符合搜索引擎习惯,少用标点

④。长度要合适,控制在二十二个汉字以内

5、内容优化方法

主要分为两部分:一部分是原创/伪原创,另一部分是采集素材库审核。

至少首段需要纯原创,且比较好是有搜索可能的内容,整段以玩家搜索需求来写。

正文比较好分小标题有条理地展开

以内容价值为主的伪原创方法

寻找有价值的文章,最好是当天发布的,也可利用爬虫抓取的数据库改写

有价值的文章具有很好的可读性、目标明确、能够吸引人的眼球。

①、修改文章的首尾部分:

首尾段重新概括,把正文里面的顺序打乱,把一些不相关的字去掉。加入观点。

②、拆分重组原文:找几篇相关性比较强的文章组合成一篇新的文章

③、相关内容的合并组合

④、翻译其他语言的文章

⑤、利用论坛、博客、新媒体等挖掘文章

6、图片优化方法

搜索引擎对于大多数图片的原创性的识别已经具备一定能力

针对图片的算法主要有计算哈希值、pHash算法和SIFT算法,及将目标图像进行编码,形成“指纹”存储起来。

①。在图片上加水印;

②。改变原有图片的长宽尺寸比,或者直接截取某一部分图片;

③。图片长宽比尽量接近121*75,也就是接近百度搜索展示的缩略图尺寸;

④。缩略图内链,与文字链接相比较,更能吸引访客去点击,注意相关性。

⑤。加上alt描述,可以增强页面关键词主题,但注意千万不要堆砌关键词。

⑥。百度对原创内容越来越喜欢,实际上图片也是页面的一部分。

7、关键词优化方法

关键词分类:核心关键词;相关关键词;长尾关键词;错误关键词;生僻关键词

①、要站在用户的角度考虑,多想想用户在搜索时会使用什么词

②、不超过5个,一般3个:主关键词、副关键词、一个潜力的长尾关键词

③、关键词密度不超过2%—8%(根据需要,不绝对)

标签: 简述搜索引擎工作的原理seo基本原理

上一篇:抖音离线模式完全指南全面了解抖音离线模式...
下一篇:秒收录新版管理平台正式上线...


发布评论