杭州网站建设

最前沿技术分享只有分享技术,才能更加了解我们
返回上一级

百度如何判断网页的重复性?

UPTATED:2018/01/30 | 分类:最前沿技术分享

  在这个高度发达的科技时代,百度已经成为人们获取新闻的重要途径。但是现在百度,内容的重复,给用户的访问带来了很多麻烦。因此,百度有必要判断网页的重复性,而只选择一些高质量的行业来欣赏重复的网页。然而,与现有技术一样,通过比较两个页面的内容和借用点,确定了两个页面之间的相似性。

  该方法计算准确,但时间复杂度高,计算时间昂贵。通过在页面上签名某些时态信息,比较两个页面的签名,计算相似度。该方法简单、高效、快速,适用于百度海量信息应用场景。

  1、对网站内容重复的判断

  2、获取多个网页;

  3、分别提取网页文本。

  4、从一个网页的文本中提取一个或多个句子,并根据一个或多个句子计算单词的签名。

  5、多个Web页面根据网页中正单词的签名进行聚类。

  6、网页的附加签名是根据每个类的网页计算的。

  7、根据附加签名,确定每个类下的页面是否重复。

  通过以上例子,网页重复判断系统及其判断方法能快速、准确地判断网页是否通过网页、文字、句子等多维签名进行复制。

百度如何判断网页的重复性?