发布日期:2023-03-31来源:武汉北大青鸟武汉校区作者:武汉宏鹏
蜘蛛抓取爬行都有一定的时间和规则,如果想要做好网站的优化,先要对其规律有一定的了解和认识。武汉北大青鸟光谷校区的网络营销王老师说,网站默认是允许所有蜘蛛进行抓取的,大家可以通过根目录下的robots.txt文件来控制蜘蛛的抓取目录以及允许哪些蜘蛛过来,这里就robots.txt文件怎么写就详细说明一下。
关于网站日志
1、页面的抓取时间
通过网站日志可以分析每个页面的抓取次数和抓取时间,从而了解蜘蛛的喜好和抓取规律,包括哪个时间点来的比较频繁,如果有新页面想要搜索引擎尽快收录,我们可以在搜索引擎蜘蛛爬取频繁的页面上(如页)加入新页面的入口,而且更好在蜘蛛来的频繁的那个时间点之前添加好新的内容。
2、页面状态码
http状态码,SEO常见的有301,302和404,蜘蛛每爬取页面都会返回一个状态码,如果是200代表正常,如果是301说明这个页面是跳转页面,如果是302代表临时跳转,重要的是404错误码,如果发现某个抓取返回的是404,我们要赶快诊断一下说明原因返回404(误删还是移走了),网站更好都设置一个404的页面,这样才对蜘蛛显得友好,遇到404的页面链接,百度站长工具有提交死链的工具,也去提交一下,让百度知道并处理。
3、各搜索引擎抓取本站的情况
每个搜索引擎都有自己的蜘蛛名称(机器人),通过网站日志可以看到哪些搜索引擎来光临自己的网站,爬取了哪些目录,以及蜘蛛过来的时间等,如百度蜘蛛是Baiduspider,我么可以Ctrl+F查找一下,查看百度是什么时间过来,抓取了哪些页面,通过查看蜘蛛爬取目录或页面的频率我们还能知道哪个目录或页面吸引蜘蛛。
4、网站目录抓取和收录情况
一般网站的结构是树形或扁平结构,蜘蛛按照网站结构目录一层一层的抓取是合理的,如果发现某个目录爬取频率比较高,但是收录的内容少,这时候就要注意这个目录下页面(内容)的质量了,就算写不了原创,也要注意深度伪原创,千万不要大量采集。
其实网站优化起来也容易,只要摸清每个蜘蛛爬行的规律,一般一看便知,ip+时间+蜘蛛名+返回码+抓取目录,大概都是这样的流程。如果还有哪里不清楚的,可以直接找我们的在线老师联系沟通!
Copyright (c) 2006-2023 武汉宏鹏教育咨询有限公司 版权所有 All Rights Reserved.