网站里面的robots.txt文件有什么作用呢?

SEO优化中经常会用到robots文件,很多新手SEO对robots文件理解不深,甚至觉得这个文件不重要,其实robots文件是对SEO优化非常重要,通过本文来说一下robots文件的作用及重要性。


robots文件的概念


robots是网站跟爬虫间的协议,所有正规的搜索引擎蜘蛛,进入网站后首先就会访问这个文件,网站的站长会通过这个文件告知蜘蛛哪些页面是可以被抓取的,哪些页面是不想被抓取的,搜索引擎蜘蛛也会遵循这个文件协议。

 

robots文件应该怎么写

User-agent: 定义本文件对哪些搜索引擎有效;

Disallow:定义禁止搜索引擎收录的页面;

Allow: 定义允许搜索引擎收录的页面;

本站文件内容说明:所有搜索引擎蜘蛛均有效,禁止抓取URL地址以wp、article开头的页面,禁止抓取URL地址中包含feed的所有页面。


robots文件的应用


1、搜索引擎喜欢原创内容,这是众所周知的事情,而这一方面并不是单单是指网站文章的原创度,另一方面网站模板的原创度也是非常重要的评分点,所以如果自己网站的模板不是原创,最好要屏蔽css目录和模板目录。


2、网站优化切忌的就是重复或者相似的页面,而搜索引擎浏览一个网站不是像人那样的,靠的还是蜘蛛的抓取。但是不少人没有重视的是,现在的主流网站程序都很容易自动产生一些没用的页面,比如缓存页面,搜索页面,feed页面等等,这些页面内容往往和主体内容相重复,而且没有什么用,如果不小心被蜘蛛抓到,那么对网站排名会有非常严重的负面影响,很多网站之所以没有排名,就是因为搜索引擎发现了网站存在大量的重复或者相似的页面。


3、可以大大的增强蜘蛛网站的爬取效率,与网站的内链有异曲同工之用,帮助搜索引擎理解哪些才是网站最重要的内容,不再浪费到其它的那些无用的页面上。


4、利用robots文件可以用来屏蔽一些没有用的页面,比如隐私页面,后台登陆页面,图片目录等内容,或者屏蔽其他的一些网站关键词无关的页面。


综上所述,robots文件是网站非常重要的一个优化部分,也是是网站优化非常细节的一个方面,运用的好可以让SEO优化工作进行的更加顺利,robots文件一定要创建,哪怕是允许蜘蛛抓取所有页面,也要保持文件访问状态为200,不要报404,这样对SEO非常不友好。

文章标签:robots