谈谈网络爬虫过程中几类网页去重方法简要介绍和指纹算法

2019-12-17 11:20:00
admin
原创
19

  百度框架开户网资料:想做好网站收录,一定要了解去重算法和指纹算法,只有这样才能更好地做好原创网页,帮助网站促进收录,提升排名。对一个新的网页,爬虫程序通过网页去重算法,最终决定是否对其索引。

网页布局格式方面
    一、近似重复网页类型,根据文章内容和网页布局格式的组合分为4种形式:
    1、两篇文档在内容和布局格式上毫无区别,则这种重复称为完全重复页面。
    2、两篇文档内容相同,但布局格式不同,则这种重复称为内容重复页面。
    3、两篇文档有部分重要的内容相同,并且布局格式相同,则这种重复称为布局重复页面。
    4、两篇文档有部分重要内容相同,但布局格式不同,则这种重复称为部分重复页面。
    二、重复网页对搜索引擎的不利影响:
    正常情况下,非常相似的网页内容不能或只能给用户提供少量的新信息,但在对爬虫进行抓取、索引和用户搜索会消耗大量的服务器资源。
搜索引擎整体架构
    三、重复网页对搜索引擎的好处:

    如果某个网页重复性很高,往往是其内容比较比较受欢迎的一种体现,也预示着该网页相对比较重要。应予以优先收录。当用户搜索时,在输出结果排序时,也应给与较高的权重。


    四、重复文档的处理方式:
    1、删除
    2、将重复文档分组
网页去重算法
    五、 SimHash文档指纹计算方法 :
文档指纹提取算法
    1、从文档中提取具有权值的特征集合来表示文档。如:假设特征都是由词组成的,词的权值由词频TF来确定。
    2、对每一个词,通过哈希算法生成N位(通常情况是64位或更多)的二进制数值,如上图,以生成8位的二进制值为例。每个词都对应各自不同的二进制值。
    3、在N维(上图为8维)的向量V中,分别对每维向量进行计算。如果词相应的比特位的二进制数值为1,则对其特征权值进行加法运算;如果比特位数值为0,则进行减法运算,通过这种方式对向量进行更新。
    4、当所有的词都按照上述处理完毕后,如果向量V中第i维是正数,则将N位的指纹中第i位设置为1,否则为0。
    一般的,我们想抓取一个网站所有的URL,首先通过起始URL,之后通过网络爬虫提取出该网页中所有的URL链接,之后再对提取出来的每个URL进行爬取,提取出各个网页中的新一轮URL,以此类推。整体的感觉就是自上而下进行抓取网页中的链接,理论上来看,可以抓取整站所有的链接。但是问题来了,一个网站中网页的链接是有环路的。
    首先介绍一个简单的思路,也是经常用的一个通用思路。我们将已经爬取过的网页放到一个列表中去,以首页为例,当首页被抓取之后,将首页放到列表中,之后我们抓取子网页的时候,如果再次碰到了首页,而首页已经被抓取过了,此时就可以跳过首页,继续往下抓取其他的网页,而避开了将首页重复抓取的情况,这样下来,爬取整站就不会出现一个环路。以这个思路为出发点,将访问过的URL保存到数据库中,当获取下一个URL的时候,就去数据库中去查询这个URL是否已经被访问过了。虽然数据库有缓存,但是当每个URL都去数据库中查询的话,会导致效率下降的很快,所以这种策略用的并不多,但不失为最简单的一种方式。

    第二种方式是将访问过的URL保存到set中去,通过这样方式获取URL的速度很快,基本上不用做查询。但是这种方法有一个
发表评论
评论通过审核后显示。
文章分类
联系我们
电话: 13022969989
Email: 252615606@qq.com
QQ: 252615606
微信: 252615606