Cara Setting Robots.txt di WordPress Yang Benar
Jangan anggap remeh Robots.txt, salah sedikit saja ketika anda membuatnya bisa-bisa konten artikel yang ada di website anda tidak terindeks oleh google dan kroninya, maka sia-sialah pekerjaan anda yang berjam-jam membuat tulisan tapi tidak tampak di pencarian. Oleh sebab itu mari kita pelajari dengan seksama apa itu Robots.txt dan bagaimana cara mengoptimalkannya dengan benar di WordPress dengan mengikuti pont-point berikut ini satu persatu.
Apa itu Robots.txt?
Robots.txt merupakan file berformat text dengan extension (txt), ini hanyalah file tulisan biasa yang bisa dibuat dengan mudah bahkan dengan notepad di microsoft windows. File ini berisi perintah-perintah yang ditujukan kepada mesin pencari mengenai mana konten yang boleh atau tidak dibolehkan untuk dirayapi.
Apa Fungsi dan Manfaat Robots.txt?
Didalam sebuah website WordPress terdapat begitu banyak direktori folder dan file tempat artikel dan gambar posting berada dan kesemuanya akan dirayapi oleh search engine kemudian ditampilkan dihasil pencarian. Tidak hanya tulisan dan gambar saja yang akan di crawl tapi juga seluruh konten didalamnya namun akibat dari si mesin pencari yang merayapi seluruh konten dari postingan, kategori, tag, page, arsip, komentar dan lain-lain mengakibatkan berbagai masalah seperti duplikat konten, duplikat meta description, duplikat title dan banyak lagi.
Namun dengan adanya Robots.txt kita bisa mengatur dan memberi perintah kepada mesin pencari mengenai konten apa saja yang boleh dan tidak boleh di rayapi oleh googlebot dan kawan-kawannya seperti yahoo search, bing dan sebagainya.
Cara Membuat Robots.txt yang super benar
Ada banyak tutorial mengenai cara membuat file Robots.txt ini tapi jangan telan mentah-mentah tutorial yang anda dapatkan karena yang bertebaran sebagian besar disarikan dari robot yang sesuai dengan websitenya, sedangkan setiap theme wordpress itu berbeda sehingga anda wajib mengetahui cara membuat file ini dan menyesuaikan dengan website anda sendiri.
Sebagai contoh
Anda ingin memberikan perintah kepada googlebot untuk tidak merayapi halaman Arsip karena berbagai masalah seperti duplikat konten dan lain-lain, maka anda membuat filenya
Anggaplah bahwa arsip Theme website yang anda gunakan berformat https://aplikita.com/archive
maka file robotnya :
[php]Disallow : /archive/[/php]
Dan Theme website orang lain menggunakan https://aplikita.com/2015
maka file robotnya :
[php]Disallow : /2015/[/php]
Maka tidak mungkin robots.txt yang anda ambil dari web orang lain akan berfungsi jika ditempatkan didalam website anda. Dalam hal ini diperlukan sekali pengetahuan lebih lanjut untuk mengenali cara membuatnya sediri. Mari selesaikan tutorial ini, saya jamin anda akan faham betul tentang bagaimana cara yang benar membuat robots.txt di wordpress.
Idealnya, didalam sebuah robots.txt harus ada user-agent, allow, disallow dan sitemap seperti dibawah ini :
[php]
User-agent:
Disallow :
Allow:
sitemap:
[/php]
User-agent : adalah jenis atau nama mesin pencari
Kita bisa menentukan mesin pencari yang lebih spesifik untuk mengcrawl website kita, sebagai contoh googlebot, maka harus menambahkannya seperti dibawah ini
[php]
User-agent : Googlebot
[/php]
Tetapi jika kita menginginkan seluruh mesin pencari seperti googlebot, msn, bing dan lain-lain maka cukup di berikan tanda bintang * seperti dibawah ini (*) artinya seluruhnya tanpa terkecuali)
[php]
User-agent : *
[/php]
Allow : adalah perintah kepada mesin pencari untuk merayapi
Sebagai contoh anda ingin agar search engine merayapi seluruh konten yang ada di web anda, maka hanya perlu menambahkan tanda (/) dibelakangnya, contohnya seperti dibawah ini
[php]
Allow : /
[/php]
Disallow : adalah perintah kepada mesin pencari agar tidak merayapi
Misal anda ingin agar agar search engine tidak merayapi /wp-admin, maka cukup menambahkan url tersebut dibelakangnya seperti berikut
[php]
Disallow : /wp-admin
[/php]
Catatan : jangan sampai anda menambahkan tanda / dibelakang Disallow jika anda tidak tidak ingin demam lantaran seluruh konten tidak muncul di pencarian
Sitemap : adalah peta situs (kumpulan link) yang ada di website agar mudah dirayapi, contoh :
[php]
Sitemap: http://mitramini.com/sitemap.xml
[/php]
Ayo Kita Mulai Membuatnya
Didalam direktori wordpress ada berbagai folder yang tidak perlu dirayapi mesin pencari seperti /wp-admin, /wp-includes, /cgi-bin dan lain. Blokirlah direktori tersebut karena kita mengkhususkan mesin pencari hanya merayapi artikel dan gambar. Dibawah ini adalah normalnya Robots.txt yang digunakan di wordpress :
[php]
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: */wp-admin/*
Disallow: */wp-login.php
Disallow: */wp-register.php
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /xmlrpc.php
Allow: /wp-content/uploads/
sitemap: https://aplikita.com/sitemap.xml
[/php]
File robot diatas hanya membatasi konten direktori dan bisa saja di gunakan, namun ada beberapa konten yang wajib kita blok dari perayapan karena sering mengganggu kualitas SEO seperti munculnya peringatan duplicate content, duplicate meta description, duplicate title tag dan lain-lain. konten yang saya maksud adalah :
- Halaman Archive bertingkat ( https://aplikita.com/2014/12/page/2/ )
Halaman arsip biasanya didahului oleh tahun setelah url domain, cara membloknya adalah dengan menambahkan :[php]
Disallow: /2015/
[/php] - Setelah kode diatas ditambahkan maka url apa saja yang setelah domain berawalan dengan 2015 tidak akan dirayapi oleh mesin pencari. ingat! ini hanya cocok untuk website dengan permalink Nama Tulisan, bukan permalink Tanggal dan Nama, karena permalink Nama dan Tulisan hanya nama domain dan url post[php]
permalink tulisan : https://aplikita.com/<strong>pes-2013-versi-full-gratispermalink tanggal dan nama : https://aplikita.com/<strong>2016/06/12</strong>/pes-2013-versi-full-gratis
[/php]Catatan : jangan pernah menambahkan kode Disallow : 2015 Jika permalink website anda memakai Tanggal dan Nama karena berakibat tidak muncul di pencarian
- Halaman Category bertingkat ( https://aplikita.com/category/mp3/page/2/ )
Idealnya, halaman depan kategorilah yang lumrah dirayapi karena dalam beberapa kasus, kategori sangat bagus jika muncul di pencarian sebagai taut situs (sitelink), namun jika didalam kategori tertentu terdapat banyak artikel (misalnya lebih dari 20) maka wordpress secara otomatis membuat halaman 1, 2, 3 dan seterusnya. Intinya jika search engine merayapi seluruh halaman kategori dari page 1 (halaman depan kategori) hingga terakhir maka sudah barang tentu terjadi duplikat meta description dan itu sangat tidak bagus untu SEO. Untuk memblokirnya dari perayapan, tambahkan kode berikut :[php]
Disallow : /category/*/page/
[/php] - Halaman Tag bertingkat ( https://aplikita.com/tag/mp3/page/2/ )
Penjelasan Tag ini sama halnya dengan kategori, bedanya hanya kode :
Disallow : /tag/*/page/
TIPS :
Cara yang lebih singkat memahami Robots.txt adalah menggunakan Pengujian robot.txt di halaman Google Webmaster Tools, disitu kita bisa tes sana-sini dan menguji coba perintah yang kita berikan dengan memasukkan url website kita sebagai percobaannya. Dibawah ini adalah Robots.txt website saya hasil dari pengujian artikel ini
[php]
User-agent: *
Disallow: /feed/
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: */wp-admin/*
Disallow: */wp-login.php
Disallow: */wp-register.php
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /xmlrpc.php
Disallow: ?wptheme=
Disallow: /category/*/page/
Disallow: /tag/*/page/
Disallow: /page/
Disallow: /2011/
Disallow: /2012/
Disallow: /2013/
Disallow: /2014/
Disallow: /2015/
Disallow: /2016/
Disallow: /2017/
Disallow: /2018/
Disallow: /2019/
Disallow: /2020/
Disallow: /2021/
Disallow: *?replytocom
Allow: /wp-content/uploads/
sitemap: https://aplikita.com/sitemap.xml
User-agent: ia_archiver
Disallow: /
User-agent: Bitacle bot/1.1
Disallow: /
User-agent: Bitacle bot
Disallow: /
User-agent: Bitacle *
Disallow: /
User-agent: Bitacle*
Disallow: /
User-agent: Bitacle
Disallow: /
[/php]
Ingat! Robotst.txt saya ini hanya untuk permalink Nama & Tulisan, bukan Tanggal & Nama. Serta tidak semua Robots.txt dari website lain bisa cocok jika di implementasikan kedalam website anda, karena masing-masing tema mempunyai struktur berbeda