seo优化 > seo教程 > 站长资讯 阅读:59

百度去重算法详解

互联网的网页中相当高的比例的网页内容是近似相同或完全相同的,在这样的大环境下搜索引擎的网页去重算法也就应运而生。

百度相关统计数据表明,互联网上近似重复的网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%.研究表明,在一个大型的信息采集系统中,30%的网页是和另外70%的网页完全重复或近似重复的。

百度去重算法详解

去重算法.jpg

作为世界上最大的中文搜索引擎,对于网页去重是必不可少的任务,那么就应运而生了百度去重算法,我们首先来分析下网页重复分为哪几种?

第一种:完全重复

完全重复是指,除域名之外的其他代码完全重复,包含标题,关键词,文章,模板等

第二种:页面重复

页面重复是指,2个或2个以上的网站除了模板不同外,其他内容比如:标题、关键词、文章等完全相同,这个属于页面重复

第三种:模板重复

模板重复是指,2个或2个以上网站只有模板是一样的,现在模板重复应该占绝大多数,很多人使用cms建站,都会用默认模板,这样就造成了大量的模板重复

在搜索引擎看来,完全重复是最不能容忍的,也是打击最严格的,其次就是页面重复,也可以说是内容重复。

内容重复的后果就是互联网会生成大量重复的内容,相信你搜索需求的时候,也不希望看到一模一样的东西吧?

应运而生的百度去重算法到底是怎么样工作的呢?下面由我来给大家详细解答下:

第一种算法:Shingling算法

Shingling算法可以由两大步骤组成:第1步从文档中抽取能够代表文档内容的特征,第2步则根据两个文档对应特征集合的重叠程度来判断是否近似重复。

第二种算法:I-Match算法

最初的I-Match算法是由Abdur等人在2002年提出的,他的基本流程基本上是通用的去重算法框架。

第三种算法:SimHash算法

经过多方的实验证明,SimHash算法可能是目前最优秀的去重算法之一,Google内部应该采用以SimHash算法为基础的改进去重方法来对网页进行预处理,而且已经对该算法申请了专利保护。

看到这么多优秀的算法, 你还敢采集文章吗?还是老老实实的跟小编一样,做一个优秀的原创文章生产者,不就的将来,你网站也会有很好的排名。


beylze教程学院,一个分享编程知识和seo优化知识的网站。跟着beylze一起学习,每天都有进步。

通俗易懂,深入浅出,一篇文章只讲一个知识点。

文章不深奥,不需要钻研,在公交、在地铁、在厕所都可以阅读,随时随地涨姿势。

文章不涉及代码,不烧脑细胞,人人都可以学习。

当你决定关注beylze,你已然超越了90%的其他从业者!

'); })();