Minggu, Februari 06, 2011

Solusi Mengatasi Crawl Error Dengan Robots

Jika Anda kebetulan adalah seorang webmaster atau blogger, tentunya Anda tidak akan lepas dengan masalah Crawl Error tarhadap serach engine seperti google. Dalam webmaster tools crawl error bisa di sebut dengan bobroknya link-link yang ada di website/blog Anda, sehingga search engine tidak dapat meng-index halaman site Anda. Untuk mengatasi masalah Crawl Error solusinya adalah dengan menggunakan robots.txt.

Robots.txt adalah file yang buat untuk menginstruksikan web robots, crawlers, atau spider yang masuk kedalam web atau blog Anda. File robots.txt mengontrol masuknya web robots yang biasanya datang dari situs search engine. Dengan adanya robots.txt, Anda bisa memberikan restriksi (semacam filter) terhadap file atau direktori tertentu dalam web, agar web robot tidak begitu saja mengcrawl semua isi dari web Anda.

Berikut beberapa format dan fungsi Robots.txt:

  1. User-agent: * artinya semua jenis robots yang diperintahkan menuruti protokol robots.txt, Anda bisa mengganti tan (*) dengan user agent yang lain.
  2. Contoh user-agent:
    User-agent: ia_archiver
    User-agent: Scooter
    User-agent: ArchitextSpider
    User-agent: fast
    User-agent: Googlebot
    User-agent: Googlebot-Images
    User-agent: Mediapartners-Google
    User-agent: Sidewinder
    User-agent: Slurp
    User-agent: Lycos_Spider_(T-Rex)
    User-agent: Gulliver
    User-agent: WebCrawler
    
  3. Disallow: / dan Allow: / adalah protokol per-izinan apakah suatu file/direktori mau direstriksi atau tidak.
  4. Cara pengisian form protokol robots.txt
  5. Anda cukup mengetikkan form protokol secara line by line. Berikut beberapa contoh kasus file atau direktori yang akan di isi dalam form protokol robots.txt:

    A. Jika Anda tidak ingin semua user-agent/robots masuk ke dalam direktori blog Anda cukup mengisi form sbb:

    User-agent: * Disallow: /
    B. Blok direktori dalam url.

    Contoh: www.yourdomain.com/search/cara+membuat+blog

    Direktori "/search/" akan direstriksi, beserta direktori/file setelahnya.
    User-agent: *
    Disallow: /search/
    
    C. Blok file dalam url.

    Contoh: www.yourdomain.com/foo/poster-artis.jpg

    File poster-artis.jpg akan kita direstriksi.
    User-agent: *
    Disallow: /foo/poster-artis.jpg
    
    D. Blok kata dalam url.

    Contoh www.yourdomain.com/search/cara+membuat+blog

    Kata "blog" dalam direktori "search" akan direstriksi.
    User-agent: *
    Disallow: /search/*blog
    
    E. Blok semua url yang mengandung suatu spesial karakter.

    Contoh : www.yourdomain.com/search/cara+membuat+blog

    Setiap url yang mengandung spesial karakter (+) akan direstriksi
    User-agent: *
    Disallow: /search/*+
    
    F. Blok semua url yang diakhiri suatu spesial karakter.

    Contoh www.yourdomain.com/search/cara+membuat+blog+

    Setiap url yang berakhiran spesial karakter (+) akan direstriksi.
    User-agent: *
    Disallow: /search/*+$
    
    G. Blok setiap awal suatu kata.

    Contoh www.yourdomain.com/search/cara+membuat+blog

    Setiap url yag ada kata "cara" dalam direktori "search" akan diblok.
    User-agent: *
    Disallow: /search/cara
    
    H. Blok setiap file dengan suatu ekstension

    Contoh : www.yourdomain.com/search/cara+membuat+blog.html

    Setiap url dalam direktori "search" yang mengandung ekstension ".html" akan di blok.
    User-agent: *
    Disallow: /search/*.html$
    
    I. Mengizinkan kata tertentu yang direstriksi

    Contoh :

    www.yourdomain.com/search/cara+membuat+blog

    www.yourdomain.com/search/cara+membuat+blogs

    Url dalam direktori "search" yang mengandung kata "blog" akan disallow tapi kata "blogs" tetap allow.
    User-agent: *
    Disallow: /search/*blog
    Allow: /search/*blogs
    
    J. Mengizinkan iklan Google Ads dalam web dapat dipantau oleh user-agent Google Ads.
    User-Agent: MediaPartners-Google
    Allow: /
    
    K. Blok multiple url dan mengizinkan Google Ads user agent

    Contoh :

    www.yourdomain.com/search/cara+membuat+blog

    www.yourdomain.com/search/cari+duit+lewat+situs

    www.yourdomain.com/search/tutorial+bikin+web

    www.yourdomain.com/search/tutorial+bikin+weblog

    Setiap url dalam direktori "search" yang mengandung kata "blog","duit",dan "web" akan disallow, tapi kata "weblog" akan allow, dan Google Ads tetap bisa dipantau oleh user agent Google Ads.
    User-agent: *
    Disallow: /search/*blog
    Disallow: /search/*blog
    Disallow: /search/*blog
    Allow: /search/*weblog
    
    User-Agent: MediaPartners-Google
    Allow: /
    
  6. Jika sudah yakin dengan semua protokol robots.txt yang Anda buat, Anda bisa kopas di notepad dan disimpan dengan nama robots.txt (semua lowercase) bukan Robots.txt.
  7. Masukkan file tersebut ke direktori utama domain kamu dan cek dengan melihat alamat url http://yourdomain.com/robots.txt
Selamat mencoba artikel di abmil dari berbagai sumber seperti Jevuska dan Askapache. Happy Blogging..!:)

The articles in this blog is usefull for you ? Click HERE for free Subscription.

25 Your Comment:

blog item mengatakan...

thanks infonya gan :)

Husni mengatakan...

very nice..............

Ramlan Tjong mengatakan...

Keren juga. Selama ini gak pernah sampai tahap ini

Eko Priyanto mengatakan...

Simbah lagi banyak tingkah sekarang...klo bangun website atau blog sebaiknya pahamin dulu webmaster tools :D

BaliMOz mengatakan...

aduh yang gini2 saya nga mudeng..hehe maklum newbe

siwan mengatakan...

trims bose

bali web design mengatakan...

wah, saya belajar banyak disini om!!!

istiqlal mengatakan...

rak mudeng

Isal Cancer mengatakan...

nah klo yg kaya gini aku masi lum paham nih gan,,,!!!
apa lg webmaster aku bxk yg error...!!
pusing jdinya gan, ^_^Newbie^_^

^_^ http://isalgames.blogspot.com/ ^_^

All Collection File mengatakan...

bisa gak yah edit robot.txt di blogspot...???

http://allfilecollection.blogspot.com/

Toko Mainan Online mengatakan...

infonya detail banget mas, soalnya saya masih pemula. thanks

MIS SIDAMULYA mengatakan...

infonya sangat bermanfaat sekali nih.. makasih ya..! tapi saya ada pertanyaan sedikit, bila tidak keberatan mohon bantuannya..
saya menggunakan daftar isi menggunakan archive blog.. bagaimana caranya supaya archive tersebut tidak di indek oleh mesin pencari apabila menggunakan tips seperti diatas (robot.txt)?

terimakasih sebelumnya
www.mis-sidamulya.tk

Vitroh Virus mengatakan...

Gini mas.. ada terjadi galat pada blog saya, karena saya telah mengutak-atik crawl dan robot.txt jadinya tiap posting saya yang baru tidak bisa ditelusuri di google. Bagaimana cara mengatasinya,,? Mohon sedikit bantuan dan infonya
Terimakasih..

Blog yang bermasalah.. www.viruscerdaz.blogspot.com

Naughtyric mengatakan...

wah masih sedikit bingung tp mkasih gan udah dijelasin,hehe,,,

angel mengatakan...

saya pake opsi:

User-agent: *
Disallow: /search/
Disallow: /tags/

sprei lady rose mengatakan...

wah sip infonya thaks ya mas

fashion mengatakan...

saya udah coba blok dan udah masuk ke dalam filter google webmaster, tapi masih juga ada yang terdetek. kenapa ya?

Eko Priyanto mengatakan...

@Fashion : udah berapa lama mas pasang robots.txt nya itu tidak instan mas butuh waktu lumayan lama :D

Dee @ Laptop Review mengatakan...

hmmmm, saya ngelu dengan backlink blog saya yang diakui google webmaster kog turun juauhhh ya? Padahal blog saya yang lain baik-baik saja. Kira-kira kenapa ya mas? Mohon pencerahannya...

Free Download Anime mengatakan...

Thanks buat infonya masbro..
jadi tau skrng :D

100rb mengatakan...

Restricted by Robot.txt pada Blogspot gimana cara mengatasinya...
mohon bantuany ,, dan untuk blogger upload robot.txt dimana ya saya mash baru ni...

liveonline mengatakan...

Nggk paham ane brother.... itu dikopy di pas mananya,.. diletakkan dimananya???

yono mengatakan...

kalo di blogspot gimana ya buat robots.txtnya tks...

Live mengatakan...

thanks ya gan tas bantuannya...:)

Irma mengatakan...

ia niih gan banyak yang error..jadinya mesti gimana..
http://inetyumaga.blogspot.com

Poskan Komentar

Silahkan Anda berikan saran, kritik atau pertanyaan jika Anda kurang jelas dengan Postingan ini, Senang bisa "Berbagi Ilmu dan Pengalaman dengan Anda". Terima Kasih.

 

Web Directory

Owner

Was born in Wonosobo City, Indonesia April 27th 1982. Glad to learn website tools. Blogger Newbie in the world that is still learning and continue to learn, to be a useful for other people. I can be contacted by eMail at info@ekopriyanto.com, Yahoo!