制棒机厂家
免费服务热线

Free service

hotline

010-00000000
制棒机厂家
热门搜索:
行业资讯
当前位置:首页 > 行业资讯

杨帆网页抓取优先策略

发布时间:2020-07-24 11:22:22 阅读: 来源:制棒机厂家

网页抓取优先策略

网页抓取优先策略也称为页面选择问题(page Selection)通常是尽量地首先抓取重要性的网页,这样保证在有限的资源内尽量地照顾到那些重要性高的网页。那末哪些网页才是重要性高的呢?如何量化重要性呢?

重要性度量由链接欢迎度、链接重要度和平均链接深度这个方面决定。

定义链接欢迎度为IB(P),它主要由反向链接(Backinks)的数目和质量决定。首先考察数目,直观地讲,一个网页有越多的链接指向它(反向链接数多),那末表示其他网页对其的认可。同时这个网页被网民访问的机会就大,推测出其重要性也就越高;其次考察质量,如果被越多的重要性高的网指向,那末其重要性也就越高。如果不斟酌质量,就会出现局部最优,而不是全局最优的问题。最典型的就是做弊网页,人为地在一些网页中设置了大量反策链接指向其本身的网页,以提高该网页的重要性。如果不斟酌链接质量,就会被这些做弊者所利用。

定义链接重要度为IL(P),它是一个关于URL字符串的函数,仅仅考察字符串本身。链接重要度主要通过一些模式,比如认为包括.COM或HOME的URL重要度高,和具有较少斜杠(Slash)的URL重要度高等。

定义平均链接深度为ID(P)此为笔者所创。ID(P)表示在一个种子站点集合中,每一个种子站点如果存在一条链路(宽度优先遍历规则)到达该网页,那末平均链接深度就是这个网页的又一个重要性指标。由于距离种子站点越近,说明被访问的机会越多,离种子站点越远,重要性越低。事实上,依照宽度优先的遍历规则便可满足这类重要性高的网页被优先抓取的需要。

最后,定义网页重要性的度量为I(P),它由以上两个量化值线性决定,即:

I(P)=a*IB(P)+*IL(P)

平均链接深度同宽度优先的遍历规则保证,因此不作为重要性评价的指标。在抓取能力有限的情况下,如果能够把重要性高的网页尽量地抓完,是公道科学的,终究被用户查询到的网页也常常是那些重要性高的网页。

虽然这样看来已足够完善,事实上,还是忽视了一个重要的要素--时间。时间致使万维网动态变化的一面。如何抓取那些新增的网页呢?如何重访那些被修改了的网页呢?如何发现那些被删除了的网页呢?为了保持和万维网网页的同步变化,就必须有网页重访策略。通过该策略可以辨认增加、修改及删除网页这3种网页变化的情况。

首发:创亿网站策划机构(ccyyw )

成都看癫痫病的医院

贵阳看癫痫哪家医院好

成都看癫痫病哪家医院好

癫痫吃什么药