不管是肥城网站建设和肥城网站优化中,Robots.txt是必不可少的。下面龙山网站为大家解读下Robots的用法以及起什么作用。
一、Robots的作用
robots.txt可以告诉您网站的哪些页面可以被收录,哪些页面不可以被收录。您可以通过Robots工具来创建、校验、更新您的robots.txt文件,或查看您网站Robots文件在百度生效的情况。
搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做
robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明
该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
二、Robots.txt 用法与写法
比如拿本站举例 如果文件中写
/wangzhanjianshe 意思就是允许或禁止 http://www.longshannet.com/wangzhanjianshe.aspx
1,在"/robots.txt"文件中,至少要有一条Disallow记录,允许收录优先级要高于禁止收录,如
User-agent: *
Allow: /a/b.htm
Disallow: /a/
则a目录下b.htm可以访问,其他禁止
2,注意路径后面加斜杠和不加斜杠的区别
如果目录后边带斜杠,那么访问不带斜杠的地址时还是可以访问目录首页,如果想屏蔽掉整个目录,建议不带斜杠
Allow或Disallow的值
|
URL
|
匹配结果
|
/tmp
|
/tmp
|
yes
|
/tmp
|
/tmp.html
|
yes
|
/tmp
|
/tmp/a.html
|
yes
|
/tmp/
|
/tmp
|
no
|
/tmp/
|
/tmphoho
|
no
|
/tmp/
|
/tmp/a.html
|
yes
|
|
/Hello*
|
/Hello.html
|
yes
|
/He*lo
|
/Hello,lolo
|
yes
|
/Heap*lo
|
/Hello,lolo
|
no
|
html$
|
/tmpa.html
|
yes
|
/a.html$
|
/a.html
|
yes
|
htm$
|
/a.html
|
no
|
3,robots文件只有放在根目录才有效,放在子目录没效。
4,robots.txt文件用法举例
|