`
zoulc001
  • 浏览: 30281 次
  • 性别: Icon_minigender_1
  • 来自: 成都
文章分类
社区版块
存档分类
最新评论

搜索引擎中的robots.txt的作用

阅读更多

今天看一本关于爬虫的书,直到了关于robots.txt的约定。

Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

目前所有的搜索引擎都遵循robots.txt的规则。

一.robots.txt的语法

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录   

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录   

Disallow: /ABC/ 这里定义是禁止爬寻ABC整个目录    

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。   

Disallow: /*?* 禁止访问网站中所有的动态页面   

Disallow: /jpg$ 禁止抓取网页所有的.jpg格式的图片   

Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html文件。   

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符   

Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录   

Allow: /tmp 这里定义是允许爬寻tmp的整个目录   

Allow: .htm$ 仅允许访问以".htm"为后缀的URL。   

Allow: .gif$ 允许抓取网页和gif格式图片robots.txt文件用法举例   

例1. 禁止所有搜索引擎访问网站的任何部分   User-agent: *   Disallow: /

例2. 禁止某个搜索引擎的访问      User-agent: BadBot   Disallow: /

 

二.用robots.txt的好处

 

1. 用robots屏蔽网站重复页

很多网站一个内容提供多种浏览版本,虽然很方便用户却对蜘蛛造成了困难,因为它分不清那个是主,那个是次,一旦让它认为你在恶意重复,兄弟你就惨了

User-agent: *

Disallow: /sitemap/ 《禁止蜘蛛抓取 文本网页》

2. 用robots保护网站安全

很多人纳闷了,robots怎么还和网站安全有关系了?其实关系还很大,不少低级黑客就是通过搜索默认后台登陆,以达到入侵网站的目标

User-agent: *

Disallow: /admin/ 《禁止蜘蛛抓取admin目录下所有文件》

3. 防止盗链

一般盗链也就几个人,可是一旦被搜索引擎“盗链”那家伙你100M宽带也吃不消,如果你做的不是图片网站,又不想被搜索引擎“盗链”你的网站图片

User-agent: *

Disallow: .jpg$

4. 提交网站地图

现在做优化的都知道做网站地图了,可是却没几个会提交的,绝大多数人是干脆在网页上加个链接,其实robots是支持这个功能的

Sitemap: http://www.010wangzhanyouhua.com/sitemaps/sitemaps_1.xml

5. 禁止某二级域名的抓取

一些网站会对VIP会员提供一些特殊服务,却又不想这个服务被搜索引擎检索到

User-agent: *

Disallow: /

分享到:
评论

相关推荐

    robots.txt用法与写法

    robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。 当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果...

    搜索引擎机器人文件robots.txt让你的网站得到更好的优化

    搜索引擎机器人文件,上传到你网站的根目录,并改文件名为robots.txt即可..让你的网站更好的优化

    robots.txt文件在线生成工具.zip

    robots.txt可以告诉搜索引擎您的网站哪些页面可以被收录,哪些页面不可以被收录,如果您不想让搜索引擎收录您网站的某些内容,请用robots.txt文件指定搜索引擎在您网站上的抓取范围。 此工具本人找了很久,源码...

    如何写robots,robots.txt是一个纯文本文件

    robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。 当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录...

    robots.txt详细介绍

    robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。 robots.txt基本介绍 robots.txt是一个纯文本文件,在这个文件中网站管理者可以...

    在线生成Robots.txt 的Js脚本

    内容索引:脚本资源,Ajax/...YouDao(有道) YodaoBot、 MSN Search等众多搜索引擎机器人的Robots.txt,就允许或是拒绝、受限制的目录等选项都可在本脚本协助下顺利完成,怕语法出错的朋友更应该试一下这个小插件。

    禁止搜索引擎/蜘蛛抓取的规则文件 robots.txt模板

    禁止搜索引擎/蜘蛛抓取的规则文件 robots.txt模板 参照你们写就可以了,很简单的。这里的规则针对所有的搜索引擎,如果只针对百度 把User-agent: * 修改为 User-agent: baidu 即可,以此类推。

    wordpress robots.txt优化你的博客

    WordPress博客的robots.txt文件写法得根据自身网站情况来定,当然我们可以借鉴一些知名网站的robots.txt写法,比如可以看wordpress教程网的robots.txt,可以通过访问:http://www.shouce.ren/robots.txt 获取 ...

    dokku-robots.txt:为应用程序创建robots.txt,可以将其设置为允许或禁止应用程序使用网络抓取工具

    这对于部署您不希望被搜索引擎索引的网站很有用。 例如,您可能想部署一个允许使用机械手的生产应用程序,以及一个不允许使用机械手的临时应用程序。 要求 独库0.4.x + 安装 # on 0.4.x+ sudo dokku plugin:...

    ASP搜索引擎蜘蛛爬行日志生成程序.rar

    9.ASP搜索引擎蜘蛛爬行日志生成程序.rar 10.搜易网站登录器.rar 11.检查网站死链工具(xenu).rar 12.51snap(SEO快捕手).rar 13.维度统计.rar .......... 推荐seo教程: 1.Ethan对搜索引擎优化(SEO)的看法.pdf...

    roboto:Spring Boot应用程序模块,可自动生成robots.txt和sitemap.xml文件

    机械手 Spring Boot应用程序模块,可基于标准控制器注释自动...接下来,使用@DisallowRobots批注标记要从搜索引擎索引中排除的方法和/或控制器。 例如: @Controller @DisallowRobots public class FooController

    hello_robots_txt:小森林 robots.txt

    小森林静态资源robots.txtMastodon 默认是用 noindex 标签阻止搜索引擎收录,不过百度好像不太认。如果你确实不希望被收录,修改 是最有效的方法,请提交 Pull Request,把你的用户名(@username@hello.2heng.xin 里...

    搜索引擎爬虫管理插件 for Z-blog.rar

    插件简介:搜索引擎爬虫管理插件(RobotsMng)是一款可以帮助新手管理你的Robots.txt文件的插件,如果你还不知道什么是Robots.txt请百度一下先。写这个插件的初衷在于帮助不懂Robots.txt写作规范和语法的同学们,通过...

    robots-txt-parser:PHP类,用于根据规范解析robots.txt文件中的所有指令

    如果有多个主机,则搜索引擎将采用第一个的值。 从该类中删除未使用的方法,完成重构,更正该类的属性范围。 添加了更多的测试用例,以及添加到整个新功能的测试用例。 添加了类,以检查是否允许解析网址。 在...

    crawlertrap:禁止忽略robots.txt的爬网机器人

    通常,您希望您的网站被尽可能多的搜索引擎索引。 但是,也有一些“不良”网站会抓取您的网站并对其进行扫描以查看电子邮件或任何安全漏洞。这个怎么运作搜寻器进入您的网站并开始搜寻过程。 它会打开一个网站并...

    搜索引擎爬虫管理插件(RobotsMng)v1.0 For Zblog.rar

    搜索引擎爬虫管理插件(RobotsMng)是一款可以帮助新手管理你的Robots.txt文件的插件,如果你还不知道什么是Robots.txt请百度一下先。写这个插件的初衷在于帮助不懂Robots.txt写作规范和语法的同学们,通过这个插件,...

    网站Robots文件写法大全

    1如果允许所有搜索引擎访问网站的所有部分的话 我们可以建立一个空白的文本文档,命名为robots.txt放在网站的根目录下即可。 robots.txt写法如下: User-agent: * Disallow: 或者 User-agent: * Allow: / 2如果我们...

    grobotstxt:grobotstxt是Google robots.txt解析器和匹配器库的本地Go端口

    grobotstxt grobotstxt是Matcher 的本地Go端口。 直接功能转换/端口 ... 它是众所周知的互联网的基本组成部分之一,也是使搜索引擎能够运行的基础。 由于REP在过去25年中只是事实上的标准,因此不同的实现者对r

Global site tag (gtag.js) - Google Analytics