越来越多的人在重视起robots.txt文件,我们在学习robots.txt文件写法的时候先来看下什么是robots.txt文件。robots.txt是告诉搜索引擎蜘蛛spider在访问网站时该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录的部分,robots.txt文件应该放置在网站根目录下。
robots.txt文件的重要性
大家都知道网站根目录应该放一个robots.txt文件,限制蜘蛛访问的文件,有的站长则觉得可有可无,其实不然。robots.txt文件作为搜索引擎和网站沟通的桥梁,是他们约定好的一个规则,哪些是搜索引擎应该抓取的,哪些不是搜索引擎抓取的。有的会说建站就是收录的,为什么会禁止收录呢。当搜索引擎抓取一些没有实质性的内容的时候会对你的网站大打折扣(比如后台管理页面,模板文件,404页面等等),我们正确的应用robots.txt文件也可以降低服务器的负荷。
各大搜索引擎的蜘蛛名称
Google的蜘蛛: Googlebot
百度的蜘蛛:Baiduspider
Yahoo的蜘蛛:Yahoo Slurp
MSN的蜘蛛:Msnbot
搜搜的蜘蛛:Sosospider
搜狗的蜘蛛:sogou spider
必应的蜘蛛:bingbot
robots.txt写法注意事项
Disallow: 描述不需要被索引的网址或者是目录。比如Disallow:/wp-不允许抓取url中带wp-的网址;要注意的是Disallow: /date/与Disallow: /date是不一样的;前者仅仅是不允许抓取date目录下的网址,如果data目录下还有子文件夹,那么子目录是允许抓取的,后者可以屏蔽date目录 下所有文件,包括起子文件夹。
Allow:描述不需要被索引的网址或者是目录。功能跟disallow相反,特别注意的是Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。使用”*”和”$”:Baiduspider支持使用通配符”*”和”$”来模糊匹配url。”$” 匹配行结束符。”*” 匹配0或多个任意字符。
User-agent:* //针对所有搜索引擎蜘蛛的抓取
User-agent:Baiduspider //针对百度蜘蛛的抓取
Disallow:/wp-content/uploads/ //禁止抓取wp-content/uploads/目录下的文件
Disallow: /*.php$ //不允许抓取url中以.php结尾的网址
淘宝禁止百度抓www.taobao.com下所有页面, http://www.taobao.com/robots.txt 文件内容如下:
- User-agent: Baiduspider
- Disallow: /
- User-agent: baiduspider
- Disallow: /
Robots.txt编写的meta问题
在robots.txt编写规则中,有一个取最强参数法则,而且如果网站以及页面标签上同时出现robots.txt文件和meta标签,那么搜索引擎就会服从两个规则中较为严格的一个,即禁止搜索引擎对于某个页面的索引,当然如果robots.txt文件和meta标签不是出现一个文件中,那么搜索引擎就会遵循就近原则,就会索引meta标签前的所有文件。
robots.txt站长们要认真对待,毕竟它是搜索进入你网站的一个入口,做好了不仅利用SEO,同时使得我们的网站节省相应的资源,有的时候我们不知道怎么写,哪怕写一个空的都比不写来得要好。