谈谈网络爬虫过程中几类网页去重方法简要介绍和指纹算法 - 百度SEO优化

百度框架开户网资料：想做好网站收录，一定要了解去重算法和指纹算法，只有这样才能更好地做好原创网页，帮助网站促进收录，提升排名。对一个新的网页，爬虫程序通过网页去重算法，最终决定是否对其索引。

网页布局格式方面
一、近似重复网页类型，根据文章内容和网页布局格式的组合分为4种形式：
1、两篇文档在内容和布局格式上毫无区别，则这种重复称为完全重复页面。
2、两篇文档内容相同，但布局格式不同，则这种重复称为内容重复页面。
3、两篇文档有部分重要的内容相同，并且布局格式相同，则这种重复称为布局重复页面。
4、两篇文档有部分重要内容相同，但布局格式不同，则这种重复称为部分重复页面。
二、重复网页对搜索引擎的不利影响：
正常情况下，非常相似的网页内容不能或只能给用户提供少量的新信息，但在对爬虫进行抓取、索引和用户搜索会消耗大量的服务器资源。
搜索引擎整体架构
三、重复网页对搜索引擎的好处：

如果某个网页重复性很高，往往是其内容比较比较受欢迎的一种体现，也预示着该网页相对比较重要。应予以优先收录。当用户搜索时，在输出结果排序时，也应给与较高的权重。

四、重复文档的处理方式：
1、删除
2、将重复文档分组
网页去重算法
五、 SimHash文档指纹计算方法：
文档指纹提取算法
1、从文档中提取具有权值的特征集合来表示文档。如：假设特征都是由词组成的，词的权值由词频TF来确定。
2、对每一个词，通过哈希算法生成N位（通常情况是64位或更多）的二进制数值,如上图，以生成8位的二进制值为例。每个词都对应各自不同的二进制值。
3、在N维（上图为8维）的向量V中，分别对每维向量进行计算。如果词相应的比特位的二进制数值为1，则对其特征权值进行加法运算；如果比特位数值为0，则进行减法运算，通过这种方式对向量进行更新。
4、当所有的词都按照上述处理完毕后，如果向量V中第i维是正数，则将N位的指纹中第i位设置为1，否则为0。
一般的，我们想抓取一个网站所有的URL，首先通过起始URL，之后通过网络爬虫提取出该网页中所有的URL链接，之后再对提取出来的每个URL进行爬取，提取出各个网页中的新一轮URL，以此类推。整体的感觉就是自上而下进行抓取网页中的链接，理论上来看，可以抓取整站所有的链接。但是问题来了，一个网站中网页的链接是有环路的。
首先介绍一个简单的思路，也是经常用的一个通用思路。我们将已经爬取过的网页放到一个列表中去，以首页为例，当首页被抓取之后，将首页放到列表中，之后我们抓取子网页的时候，如果再次碰到了首页，而首页已经被抓取过了，此时就可以跳过首页，继续往下抓取其他的网页，而避开了将首页重复抓取的情况，这样下来，爬取整站就不会出现一个环路。以这个思路为出发点，将访问过的URL保存到数据库中，当获取下一个URL的时候，就去数据库中去查询这个URL是否已经被访问过了。虽然数据库有缓存，但是当每个URL都去数据库中查询的话，会导致效率下降的很快，所以这种策略用的并不多，但不失为最简单的一种方式。

第二种方式是将访问过的URL保存到set中去，通过这样方式获取URL的速度很快，基本上不用做查询。但是这种方法有一个

电话：	13022969989
微信：	13022969989