搜索引擎神马Spider介绍

1. 神马Spider

神马Spider是神马访问互联网,自动化抓取网页的程序。Spider抓取下网页,建立索引,使用户可通过搜索引擎搜索到互联网上的资源。

搜索引擎神马Spider介绍-五八弟源码下载

2. 神马Spider的user-agent及ip地址

user-agent,是http协议中的一个属性,代表了终端的身份。神马Spider的user-agent为:Yisouspider,因为历史原因此user-agent名称将会继续使用。

神马Spider的ip地址是一组ip池,会动态变,因此不在此列举

3. 神马Spider的网站访问频率

神马会根据网站的规模、服务能力、页面质量、更新速度等因素来决定对网站的访问频率。通常质量高、网页更新快的网站神马spider访问的频率相对会高,以保证高质、时效的能够展现给用户。

搜索引擎神马Spider介绍-五八弟源码下载

4. 神马spider如何发现新网页

神马spider发现新网页的方式有多种,最典型的是在已发现的网页中分析超链关系,选取url并抓取,如此不断拓展,尽可能多的抓取到有价值的网页。另外,神马会从dns服务商处获取新网站域名,能够及时抓取到新建网站。

5. 关于robots协议

robots.txt是搜索引擎访问网站是要访问的第一个文件,以确定哪些网页是允许或禁止抓取的。神马搜索遵守互联网robots协议,如您希望完全禁止神马访问或对部分目录禁止访问,您可以通过robots.txt文件来设置内容,限定神马Spider的访问权限。

robots.txt必须放在网站根目录下,且文件名要小写。

具体的写法:

1) 完全禁止神马Spider抓取:

User-agent: Yisouspider

Disallow: /

2) 禁止神马spider抓取指定目录

User-agent: Yisouspider

Disallow: /update

Disallow: /history

禁止抓取update、history目录下网页

6. 神马Spider是否会造成带宽负担

神马Spider有规范的抓取流程,同时也会考虑网站的忙闲时段来抓取,因此不会给网站造成带宽负担。如您发现名为Yisouspider的user-agent抓取严重影响到了网站的正常访问,您可将该时段的访问日志信息反馈至zhanzhangpingtai@service.alibaba.com,神马同学会将分析结论发送给您。

1、升级本站永久VIP,仅需【88】元即可升级 ! ! ! (升级后永久享受整站资源全部免费下载)

2、站内下载币均可通过签到等任务进行免费兑换。

3、站内资源均来源于网络公开发表文件或网友投稿发布,如侵犯您的权益,请联系管理员处理。

4、本站所分享的源码、模板、软件工具等其他资源,都不包含技术服务,请大家谅解!

5、所有资源均收集于互联网仅供学习、参考和研究,请理解这个概念,所以不能保证每个细节都符合你的需求,也可能存在未知的BUG与瑕疵,因本站资源均为可复制品,所以不支持任何理由的退款兑现(特殊情况可退积分),请熟知后再支付下载!


五八弟源码下载 » 搜索引擎神马Spider介绍

常见问题FAQ

  • 2020年8月11日Hi,初次和大家见面了,请多关照!

发表评论

  • 424会员总数(位)
  • 3330资源总数(个)
  • 13本周发布(个)
  • 0 今日发布(个)
  • 384稳定运行(天)

58源码下载站58DIR.CN,专为草根站长提供建站服务的平台

开通VIP 本站模板