您的位置首页 网站排名

SEO必学的搜索引擎工作原理

SEO也叫做搜索引擎优化,也就是要让我们的网页尽量符合搜索引擎的工作习惯,尽量去迎合它的过程。我们必须先搞清楚搜索引擎的工作原理,然后才能迎合它的工作。那么搜索引擎的工作原理是什么呢,它是如何工作的呢?

搜索引擎工作原理

1、当搜索引擎蜘蛛进入到一个网站(如果是一个单个的网页则不要管这一步)后,第一时间是查找网站根目录下的robots.txt文件,这个文件是向蜘蛛表明哪些网页它可以去,哪些网页是不需要它去收录的文件,它将严格依照这个文件的规定。然后它会查找这个网站下的网站地图,即sitemap文件,看看如何去收录这个网站,那当然,你的网站中如果没有这两个文件,对搜索引擎将是不利的(如何制作这两个文件,在我们后面的SEO优化课程里将会有详细的讲解)。

2、当搜索引擎进入到网页后,会先查找网页的title和H1标签和keywords和description标签,所以我们要保证这四个标签的关键词的高度统一;

3、提取文字:搜索引擎的抓取是以文字内容为基础的,所以,从优化的角度出发,动画网站,Javascript 的代码,图片内容是不能被引擎抓取的,对优化网站是不利的。“提取文字”是指搜索引擎先从HTML 文件中去掉标签,程序,提取出可以用于页面排名处理的文字内容。

4、分析、确定关键词(中文分词):中文分词是中文搜索引擎特有的步骤,搜索引擎在处理数据时都是以词为基础的,英文等语言单词与单词之间有空格,可以直接分词,而中文词与词之间没有任何分隔符,一个句子中的所有字和词是连在一起的,搜索引擎要先分辨哪几个字是一个词,哪些字本来就是一个词,比如“减肥方法”可能被分为“减肥”和“方法”两个词。当搜索引擎发现title、keywords、description、H等标签中出现的词与正文中大量出现的词相同或者相近时,它会认为这个词就是这个页面的关键词。

5、去停止词:如的,地,得,啊,哈,呀之类的词,这类词是任何网页都不可能将之作为关键词的词,就叫停止词,搜索引擎在将网页收录进数据库之前会去掉这些词。

6、消除噪声:噪声是指网页上对页面主题没有贡献的内容,比如版权声明文字,导航条,广告等,这些都属于噪声,对页面排名不利,它对于主题只能起分散作用。消噪的基本方法是根据html 标签对页面分块,区分出页头,导航,正文,页脚,广告等区域,在网站上大量重复出现的区块往往是噪声,所以这些地方大家最好不要放置关键词。以免给搜索引擎造成误会,因为它会认为,这些地方出现的词不应该是关键词。所以大家会经常看到某些网页的最下方,有人会故意放置很多的关键词,这是不但无益而且有害的。

7、去重:同一文章经常出现在不同网页上,搜索引擎不喜欢这样重复性的内容,喜欢原创。所以,有些人为了页面的更新度,会将人家的文章进行复制,然后加入一些简单的内容进行所谓的伪原创,这是不能逃过引擎的去重算法。 每个网站有着不同的权重,这也导致不同的页面也有不同的权重,用来衡量网站权重最有效的概念是PR值。

8、索引: 经过文字提取,确定关键词,消噪,去重后,搜索引擎得到的就是独特的能反映页面主体内容的,以词为单位的内容。接下来搜索引擎索引程序会进行如下的操作:
1.提取关键词:按照分词程序分好的词,把页面转换为一个关键词组成的集合;
2.记录每一个关键词在页面上的出现频率、出现次数、格式(比如关键词是否出现在标题、黑体、H 标签、锚文字等标签中)、位置(比如是否在页面第一段文字)等,这样,每一个页面都可以记录为一连串关键词的集合。当用户在搜索引擎中输入关键词与本页匹配时,引擎会根据它的算法为你的页面进行排名处理,然后显示在搜索引擎中。

以上八步,就是搜索引擎的工作原理,也就是搜索引擎抓取网页的整个过程。我们做网站SEO优化,就是要最大程度去迎合搜索引擎的工作的过程,当我们明白搜索引擎的工作原理后,就可以有的放矢地做SEO工作。

关于作者: 一知半解98

专注SEO优化的发展趋势,系统讲解seo发展学习规划和学习方法!

热门文章

发表评论