QQ资源吧-免费分享全网优质资源

网站robots应该怎么写?

QQ资源吧 站内优化
扫码手机访问
0

一般来说,网站或多或少都存在一些对排名没意义甚至有害的页面。对于站长来说是不希望被搜索引擎检索的。而robots.txt文件则承担了

站长这个意愿的表达功能。当蜘蛛访问网站会优先抓取robots.txt,遵循站长配置的规则不再抓取不利于SEO的内容。

QQ资源吧

robots.txt文件位置

robots文件往往放置于根目录下

robots.txt文件格式

Disallow:该项的值用于描述不希望被访问的一组URL

Allow:该项的值用于描述希望被访问的一组URL

User-agent:该项的值用于描述搜索引擎robot的名字

例如:

User-Agent:YisouSpider // 配置YisouSpider

Disallow: / // 不允许YisouSpider抓取网站任何内容

User-Agent:* // 配置所有搜索引擎

Allow: / // 允许抓取网站任何内容

更多

Disallow: /abc //禁止抓取含abc目录及子目录的所有页面

注意:有些地方注释为“禁止抓取abc目录及子目录中的内容”百度官方有举例,"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help/index.html

Disallow: /abc/ //禁止抓取含abc目录的所有页面

百度官方有举例,"Disallow:/help/"则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。

robots.txt通配符的使用

"*" 匹配0或多个任意字符

"$" 匹配行结束符。

举例:

Disallow: /*?* //禁止抓取网站中所有的动态页面

Disallow: /*.htm$ // 禁止抓取所有以.htm为后缀的URL页面 /abc.htm/index 不匹配

区别于Disallow: /*.htm // /abc.htm/index 也匹配

更多robots.txt,可以参照百度站长站长平台关于robots.txt

网站哪些内容不建议被抓取

对于这个思想这个小白也懂的不多,一般取决于内容是否利于SEO的原则。例如,我博客的搜索结果页,没做好优化的tags页都禁止抓取了。而对于企业站来说,如果不打算可以优化公司名称的关键词,关于、联系、企业新闻等一些内容都可以考虑禁止

还有一点值得注意的事,有很多站长反馈说百度不遵循robots.txt协议,抓取不该抓取的内容。思享也感觉不是很靠谱,所以也可以考虑在一些页面设置meta name="robots"

百度的解释理解起来或许有所偏差,如果有不对,大家可以指正、交流

  您阅读这篇文章共花了: 

标签:

暂无标签

免责声明:

本站提供的资源,都来自网络,版权争议与本站无关,所有内容及软件的文章仅限用于学习和研究目的。不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负,我们不保证内容的长久可用性,通过使用本站内容随之而来的风险与本站无关,您必须在下载后的24个小时之内,从您的电脑/手机中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。侵删请致信E-mail: @qq.com

同类推荐
评论列表

相关通知:

如发现本站有侵权违规的相关内容请致信E-mail: @qq.com

富强民主文明和谐自由平等公正法制丨爱国敬业诚信友善
协助本站优化一下
百度一下
关键词不能为空
当前时间
热门文章
随机推荐
站内优化 网站robots应该怎么写?
一般来说,网站或多或少都存在一些对排名没意义甚至有害的页面。对于站长来说是不希望被搜索引擎检索的。而robots.txt文件则承担了 ...
扫描二维码阅读原文
QQ资源吧 January, 01
生成社交图 ×