影响爬虫内部爬行的相关因素 - 哈尔滨SEO_小贱博客
欢迎大家光临我的哈尔滨SEO博客,不怎么经营,文笔一般,承接相关网站建设/优化/推广服务。

影响爬虫内部爬行的相关因素

SEO技术策略 483℃ 0评论

网站在布局上是否能让搜索引擎清楚的认识的网站结构,大部分出现在网站内部相关因素影响,导致爬虫爬行断链接爬行断开。下面列举关于影响爬虫内部爬行的相关因素。

影响爬虫内部爬行因素

网站的速度严重影响爬虫的访问

一个网站速度不够快的网站是用户所摒弃的,也是被spider抛弃的对象。

影响网站速度的相关因素

  1. 机房地理位置(一般国内速度最优)
  2. dns服务器响应
  3. 网页过于大,上M的网页。
  4. 网站出口宽带,浏览网站是出流量,等于下载一个网页。
  5. 没有cnd技术
  6. 操作系统
  7. 服务器硬件设施
  8. 程序没有优化

nofollow的标签控制禁止爬行追踪

正确使用nofollow标签可以是蜘蛛避免浪费爬行在没有价值的页面,增加蜘蛛的爬行效率,提高爬行速度。

没有入口和出口

有些页面可能不需要让用户看见,为了增加自己的收录,从而促进长尾,如果没有在相应的栏目和首页,是很难发现这些页面的。

比如有些分页被屏蔽,蜘蛛爬行不了深处。

有的页面纯粹的一个页面,没有任何内链的导出,导致蜘蛛爬不出去。

robots.txt设置失误

robots.txt设置失误是导致之中永远发现不了你想抓取的页面。

爬虫爬行的顺序

派出spider后,访问网站的robots.txt,然后首页,栏目页  首页。

影响爬虫内部爬行其他相关因素

spider可以是看成一个正常的访客,因此有些服务器的设置,导致爬行比较勤快的蜘蛛被拒绝或被服务器加入了黑名单。

一般spider被拒绝,会显示状态码403的错误,也就是无权限访问。

网站没有设置xml站点地图

网站设置sitemap地图有利于蜘蛛更熟悉认识你的网站结构。

转载请注明:哈尔滨SEO-网站排名优化-哈尔滨小贱SEO博客 » 影响爬虫内部爬行的相关因素

喜欢 (2)
发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址