Apa itu robots.txt? Robots.txt (remember, always plural!) sebenarnya hanyalah sebuah file .txt (teks) biasa yang disimpan di root sebuah website atau blog. Fungsinya adalah untuk membatasi atau mencegah spiders atau bot search engine untuk mengakses file-file pada website/ blog, atau sederhananya robots.txt memberitahu spiders atau bot mana yang boleh diakses dan mana yang tidak boleh. Lalu, pentingkah robots.txt ini untuk sebuah website / blog? Jawabnya tentu saja, karena pembatasan akses yang dilakukan oleh robots.txt akan lebih mengarahkan bots untuk mengakses content-content yang dianggap penting saja atau yang tidak ingin dishare ke publik. Tentunya bisa dibayangkan bukan, jika terdapat ribuan file dalam website kita yang jika tidak dibatasi akan membiarkan bots meng-crawl (merayapi) file-file tersebut satu persatu. Sementara beberapa jenis file seperti .php, javascript .css, .inc sebenarnya tidak penting untuk di-crawl. Maka dengan menggunakan robots.txt ini bot dari search engine akan lebih fokus meng-crawl content-content penting saja dari website atau blog kita.
Cara kerja robots.txt sendiri pada dasarnya adalah melarang saja, karena robots search engine cenderung meng-crawl semua file. Sehingga penggunaan syntax dalam robotx.txt pun adalah Dissalow (melarang), untuk lebih jelasnya berikut contoh penggunaan file robots.txt:
Untuk mencegah semua robots
Cara kerja robots.txt sendiri pada dasarnya adalah melarang saja, karena robots search engine cenderung meng-crawl semua file. Sehingga penggunaan syntax dalam robotx.txt pun adalah Dissalow (melarang), untuk lebih jelasnya berikut contoh penggunaan file robots.txt:
Untuk mencegah semua robots
User-agent: *
Disallow: /
Catatan: tanda * (wildcard) artinya semua akses semua jenis robots dari search engine, sementara tanda / (slash) merujuk pada root directory.
Untuk memperbolehkan semua robots
Untuk memperbolehkan semua robots
User-agent: *
Disallow:
Catatan : Karena setelah parameter Dissalow dikosongkan akan memberi full akses, dengan kata lain “Dissalow : none”. Untuk memperbolehkan robots mengakses seluruh website, sobat juga dapat membuat file robots.txt kosong atau sama sekali tidak membuat file robots
Untuk memperbolehkan satu jenis robots
Untuk memperbolehkan satu jenis robots
User-agent: Googlebot
Disallow:User-agent: *
Disallow: /
Untuk mencegah sebagian directoy dan file (recommended)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /wp-admin/
Disallow: /wp-includes/
Mengingat pentingnya pembatasan dengan robots.txt seperti yang telah dijelaskan pada paragraf pertama tulisan ini. Maka saya sendiri memberikan pembatasan pada file dan directory tertentu dalam robots.txt yang saya gunakan. Berikut isi file robots.txt blog ini:
User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.swf$
Disallow: /*.zip$
Disallow: /*?*
Disallow: /*?User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /trackback/
Disallow: /feed/
Disallow: /author/
Disallow: /comments/Sitemap: http://blog.finderonly.net/sitemap.xml
Sitemap: http://blog.finderonly.net/sitemap.xml.gz
Nah, sobatpun bisa melakukan pembatasan yang sama. Buat file robots.txt dengan menggunakan contoh robots.txt di atas dan simpan di root website atau blog sobat. Adapun untuk mengecek sudah valid atau belum robots.txt yang sobat gunakan. Sobat bisa mengeceknya di sini
Semoga bermanfaat sob,,
Posting Komentar