百度针对特定索引页类型采取的特定手段
2020-12-23 17:13:04 阅读(154) 评论(0)
一、背景 Spider位于搜索引擎数据流的最上游,负责将互联网上的资源收集到当地,并提供给后续的搜索,是搜索引擎的主要数据来源之一。spider系统的目标是在互联网上找到和掌握所有有价值的网页。为了实现这一目标,首先是找到有价值的网页链接。目前,spider有多种链接发现机制,以尽快找到资源链接。本文主要描述了特定索引页面的链接补充机制之一,并对这种特定类型的索引页面提出了建议和处理规范,以优化包含效果。一些事 目前,大多数互联网网站以索引页面和翻页的形式组织网站资源。当新资源增加时,旧资源将转移到翻页系列。 如下图所示:yixieshi 图2是18小时后网页翻页系列第四页的内容,在此期间增加了三页以上的资源。图1中红色矩阵圈到的资源在18小时后有序地转移到第四页的红色方块。 图表218小时后的第四页 对于spider来说,这种特定类型的索引页面是发现资源链接的有效渠道。然而,由于spider定期检查这些页面以获得新的资源链接,检查周期不可避免地与资源链接发布周期不同(spider将尝试探索页面的发布周期,以合理的频率检查页面)。当周期不同时,资源链接很可能被推入翻页序列,因此spider需要对这种特殊类型的翻页系列进行翻页补充,以确保资源的完整性。 二、主要思路 本文主要讨论了该资源根据发布时间有序排列的网页,即新发布的资源排列在页面的第一页(或页面的最后一页),以及旧资源有序推移的索引页面的补充机制。主要思路是将整个翻页系列的网页视为一个整体,全面判断它们的捕获状态,记录每个捕获页面发现的资源链接,然后将发现的资源链接与历史上发现的资源链接进行比较。如果有交叉点,则意味着所有新的资源都是在这次捕获中发现的;否则,这意味着在这次捕获中没有发现所有新的资源。我们需要继续捕获下一页甚至下一页,以找到所有新的资源。 2.1资源链接是否按时间排序 判断资源是否按发布时间排列是此类页面的必要条件,那么如何判断资源是否按发布时间排列呢?如上图1所示,一些页面中的每个资源链接都遵循相应的发布时间。通过资源链接对应的时间集合,判断时间集合是否按大到小或小到大排序。如果是这样,则表明网页中的资源按发布时间有序排列,反之亦然。如上图1所示,一些页面中的每个资源链接都遵循相应的发布时间。通过资源链接对应的时间集合,判断时间集合是否按大到小或小到大排序。如果是这样,则表明网页中的资源按发布时间有序排列,反之亦然。图1中资源从上到下对应的时间越来越小,即资源按发布时间有序排列。yixieshi 还有一种网页,如下图3所示,网页内容中有多种排序方式,如销量、价格、评论数、上架时间等。通过识别和提取当前的排序模式,然后判断当前的排序模式是否按时间排序。如果是,则表明网页中的资源按发布时间有序排列,反之亦然。图3中的排序模式是按上架时间排序,属于时间排序模式,因此网页发布的资源是按发布时间有序排序的。 此外,还将根据资源链接收回后提取的发布时间进行综合判断。 图3索引页yixieshiies多种排序方式。 2.2补全机制 索引页系列的资源链接如何保证新发布的资源按发布时间有序排列?正如上面提到的,18小时后,图1中的资源链接已经有序地转移到页面的第四页。这样,在此期间,第二页、第三页和第四页索引的资源链接将被添加,因此spider需要完全包含这些新资源; 首先,当spider在18小时后抓取第一页时,收集新发现的资源链接,与上次18小时前第一页索引页调度记录的资源链接集合作相比,会发现两次调度发现的资源链接没有交集,可能会出现漏链。然后我们需要继续启动第二页的调度。第二页发现的资源链接集仍然没有交叉点,因此可能存在漏链。继续启动第三页和第四页的调度。最后,如图2所示,红色框中的链接与上次索引页调度记录的资源链接相交。因此,可以得出结论,在此期间,新资源已经完成,从而结束了翻页系列的调度,并确保了翻页系列的所有链接。从而提高搜索产品的收录效果。互联网上的一些事情 2.3翻页条的识别与翻页条对应的链接序列块的识别 为了达到上述效果,除了识别页面系列的排序方法是否按时间排序外,还需要识别索引页面中的页面条及其相应的链接块。 由于没有页面识别,spider系统不可能绑定页面序列的所有链接,整体考虑其状态,因此调度捕获结果是随机的,不能保证完成效果,目前通过页面的一系列特征,通过机器学习方法识别页面块和页面深度,以及上一页、下一页的链接,为上述完成机制提供基本数据。 另一方面,即使有页面识别,没有相应的链接块识别,上述完成机制仍然不能工作,因为上述机制需要比较发现的链接集来确定终止条件,因此也需要识别页面条对应的链接块,以提供页面终止条件。 另一方面,即使有页面识别,没有相应的链接块识别,上述完成机制仍然不能工作,因为上述机制需要比较发现的链接集来确定终止条件,因此也需要识别页面条对应的链接块,以提供页面终止条件。 在特殊情况下,一个网页可能包含多个翻页条,这需要翻页条与链接块对应。 三、建议的方法和标准 目前百度spider系统会根据实际情况对网页的类型、网页中翻页条的位置、翻页条对应的索引列表、列表是否按时间排序做出相应的判断和处理,但机器的自动判断方法毕竟不能达到100%的识别精度。因此,如果网站管理员能够在页面上添加一些百度推荐的标签来标记相应的功能区域,它可以大大提高我们识别的准确性,从而提高网站资源搜索系统的即时性,从而提高网站的包含效果。互联网上的一些事情 Spider链接补充了目前最关心的是网页的搜索链接列表中与搜索链接列表对应的块,因此可以通过块元素(如div,ul)class属性为百度spider识别标记相应的特征,建议使用以下属性来标记:互联网上的一些事情 表1支持CLASS扩展属性互联网的一些事情 例如,百度新闻页面可以这样设置:互联网上的一些事情 可以设置class属性Baidu_对应于翻页条的区块元素ppaging_indicator,div对应于该页面对应的主链接的区块元素,设置Baidu___________________paging_content_indicatorOrderby_posttime,这样,翻页条与相应的链接块相对应,并通知百度根据发布时间进行排序,以优化spider系统的捕获行为,提高网站的收集效果。一些事 四、总结 除了上述链接发现方法外,百度抓取系统还有许多其他手段来确保有价值网站的包含覆盖率。上述方法只是针对特定索引页面类型的特定手段,互联网站长可以参考使用。站长也可以通过spider站长平台了解如何获得更快更好的网站收录效果,比如通过sitemap协议直接推送链接。
推荐阅读
- java开发是做什么的
JAVA主要是用来干什么的?百战程序员IT问题专业解答 java是一种面向对象的编程语言 现在我们日常使用的很多软件都是java语言开发的。 比如安卓上的各种app,界面都是使用java语言写的。 当然java最强大的地方还不是写a…查看详情
- 用什么软件去做市场?市场管理软件排名
对于市场管理软件来说,是一个十分庞大的数据,所做的行业不同所需要的数据就不一样,比如说销售,在销售中,产品的库存销各种数据,还有每日经营数据对比,及时发现商品数据波动等等,那我们今天就盘点一下市场管理软件都有哪些把。1、企管宝CRM企管宝C…查看详情
- 拼车软件哪个好用又便宜 哪个拼车平台比较靠谱
现在人们的出行方式都越来越多样化了,拼车算是人们常用的一种出行方式,市面上的拼车软件也是有很多的,下面万商云集小编给大家来详细介绍一下拼车软件哪个好用又便宜 哪个拼车平台比较靠谱方面的内容,希望能帮助到大家解决出行问题。 1.滴滴出行 …查看详情
- 营销|没客户电话也能短信联系,这是什么黑科技?
每到618、双十一和双十二你的手机是不是也会经常收到促销短信呢? 短信群发较于传统的推广方式而言算是一种成本低、速度快、阅读量大而且比较“接地气”的宣传方式之一但许多中小企业却…从未接触过活动的内容编辑重要吗?短信的内容决定用户是否会点击活…查看详情
- 杀毒软件排名,这些可以放心用
现在的工作和生活中都会使用电脑,其中的信息也是比较多的,除了公司内部的信息之外,还有个人的一些隐私,如果不小心受到病毒的感染,那么危害不可小视,甚至还会导致信息泄露影响严重,所以杀毒软件的选择很重要,下面就针对于杀毒软件的排名进…查看详情
- 质量管理软件如何选择?这几款值得尝试
产品的质量是一个企业的生存命脉与基础,本所以说企业对于产品的质量,往往是要求比较严格的,而通过使用质量管理软件,则可以很好的进行质量方面的管理和规范的实施,能够让操作变得更为规范,也是针对于产品的设计人员,还有制造的人员等等,所…查看详情
- 已失效的专利可不可以转让?
依据我国相关法律的规定,向专利管理部门申请专利后,经专利管理部门批准,申请人获得专利权,而专利权是可以依法转让的,那么已失效的专利可不可以转让?下面万商云集小编就给大家来介绍一下这方面的详细内容,希望能帮助到大家解决这一块的问题。 …查看详情
- msf是什么文件
1、什么是MSF文件?2、什么是NLB文件?3、什么是LST文件?MSF是流媒体功能的内容格式为.msf,兼容avi等格式是通过专用工具制作内容分为头文件和动画文件用专门的软件打开如新版的暴风影音NLB是Oracle7数据文件LST是列表文…查看详情
- 新媒体运营怎么自学 怎么学好新媒体运营
现在新媒体一运营算是比较热门的一个职业,很多人都转行做新媒体,下面万商云集小编给大家来详细介绍下新媒体运营怎么自学 怎么学好新媒体运营这方面的内容。 01内容的价值性 不管是做文章还是做视频,内容最重要的一点就是带有价值含量,说得简…查看详情
- 盘点好用的微信分销系统,适合创业新手
目前做微信分销系统的很多,商家到底应该如何选择一款适合自己的微分销系统呢?市面上主流的分销系统特别多,主流的微信分销系统哪个好大致包括HiShop销客多等等,企业或者创业新手往往不知道如何挑选。 1、微巴人人店分销系统 人人…查看详情
- 微信小程序定制开发都需要经过哪些流程
微信庞大的流量资源对于做线上营销的人有着巨大的吸引力,各类小程序层出不穷只为能获得一部分资源。想要在数量众多的微信小程序中占据有利的竞争优势,那进行微信小程序定制开发就是很好的选择。如果你对这一领域还不太清楚,不妨跟小万一起来看看都有哪些流…查看详情
- 客户端是什么意思啊
客户端是计算机网络中的一个术语,通常指的是连接到网络的设备或软件,用于与服务器进行通信和交互。客户端一般用于请求服务器上的资源或服务,例如发送电子邮件、下载文件或访问网站等。在互联网上,客户端是与浏览器或移动应用程序等一起使用的。 在…查看详情
- 如何强制删除文件夹
在计算机使用过程中,经常会遇到一些无法删除的文件夹,这些文件夹可能由于权限问题、病毒感染、损坏等原因导致不能删除。本文将详细介绍如何强制删除文件夹。 一、使用命令行删除文件夹 命令行是Windows操作系统中一个十分强大的工具,可以…查看详情
- 网站怎样做流量分析
流量对于网站来说非常重要,网站运营的首要目的就是获得流量,但是流量不同价值也不同,我们需要对流量进行分析,通过流量的分析更好的运营我们的网站,流量的分析主要是流量的来源以及流量在网站上的流向两个方面的分析。通常流量的来源主要有三个途径:搜索…查看详情
- 飞鱼CRM是什么东西?高效低成本的客户管理系统
让用户接触到广告不难,但想要留住客户,产生最大的投放收益却一直是一项难题,飞鱼CRM系统作为一款优秀的客户管理系统,究竟有哪些作用?下面小万就来详细为大家介绍一下究竟飞鱼CRM是什么东西。 飞鱼CRM是什么东西? 飞鱼CRM系统是巨量引擎推…查看详情
猜你喜欢
最新文章
扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121
关注微信公众号
和10万中小企业共同成长
扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有 蜀ICP备12001963号-2 川公网安备 51010402000322号
快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
免费查找信息保护中请放心填写-
-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP
企业首选的数字选用平台