Ahmet Musa OK

Posted on 12 Haziran 2014

Robots.txt Derken?

Bu yazımda Robots.txt yapımı hakkında siz ziyaretçilerimizi bilgilendireceğim. Robots.txt sitenin ana dizininde bulunan ismi değişmeyen, Google Botları için kılavuz bir dosyadır. Yani Google Botları sitenizi ziyaret ettiğinde, dosyanız varsa ilk Robots.txt dosyasına girecektir, yoksa işiniz zor, Robots.txt dosya içersinde bazı kodlar görecektir ve bu kodlar doğrultusunda nereleri indexleyeceğini, nerelere girmeyeceğini anlayacaktır. Sonuç olarak Robots.txt Google botları için olmazsa olmazlardandır. Şimdi biz de Robots.txt yapımını beraberce öğrenelim.

Bakabileceğin »

Robots.txt dosyası ne işe yarar?

Arama motorlarının indeksleme robotları bir web sitesine ulaştıklarında ilk olarak kök dizinde bulunan robots.txt dosyasını ararlar. Bu dosya robotlara hangi sayfaların indekslenip hangilerinin indekslenmeyeceğini anlatmak için yerleştirilir. Robotlar sadece kök dizindeki robots.txt dosyasına bakacakları için alt dizinlere bu dosyayı yerleştirmek anlamsızdır.

Eğer alt dizinlerden birisine ait url (veya url’lerin) indekslenmesini istemiyorsanız bunlar da kök dizindeki robots.txt dosyasında bildirmeniz gerekiyor. Ya da alternatif olarak indekslenmesini istemediğiniz sayfalarda Meta Tag kullanabilirsiniz. Çoğu ücretsiz blog servisi kök dizine erişime izin vermediğinden Meta Tag’lardan yararlanmak gerekecetir.


Robots.txt Çalışma Prensibi

robots txt Robots.txt yapımı


Robots.txt nasıl oluşturulur?

Yeni bir metin belgesi açalım ismini Robots.txt yapalım. Robots.txt dosyamız içersinde iki farklı değişkenimiz olacak. Bunlar ve anlamları şöyledir:

User-agent: Google Botu’nun adı gelecek
Disallow: Botun izinlerini gireceğimiz komutlar yer alacak

 

Örnek 1:

User-agent: *
Disallow
					

Kodlarımızı yorumlayalım. 1. satırdaki kodumuz da bakınız Google Botları’nın isimleri gelecekti fakat “*” işaretini gördünüz. Bunun anlamı, siteniz tüm Google Botları’nca istisnasız indexlenmesine izin vermişsiniz demektir.

 

Örnek 2:

User-agent: *
Disallow: /
					

Gördüğünüz gibi birinci satırdaki user-agent kodumuzun anlamı tüm Google Botları’na sitenizi indexlemesi için izin verilmesiydi. Fakat ikinci satırda “/” böyle bir karakter görüyorsunuz. Bu karakterin anlamı site üzerinde tüm dosyaların taranmaması isteniyor.

Yani bu Robots.txt kod bütününden de anlayacağımız şey, bütün Google Botları’nca sitemizin hiçbir dosyası indexlenmeyecek, taranmayacak.

 

Örnek 3:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/
					

Bütün google botları, bu 4 dosyayı indexlemeyecektir.

 

Örnek 4:

User-agent: DeepCrawl
Disallow: /private/
					

DeepCrawl, bir google botudur. Görevi ise; sitenizi uzun aralıklarla ziyaret edip, indexlenmesi için gerekli bilgileri toplar. Bu kodların anlamı ise, ismi verilen botun ilgili private klasörünü indexlememeli.

 

Örnek 5:

User-agent: *
Disallow: /directory/dosya.html
					

Tüm botlar, ilgili dosyayı indexlemeyecektir. Ama directory dizinindeki dosya.html hariç diğer tüm dosyaları tarar ve indexler.

 

Örnek 6:

User-agent: *
Allow: /dosya1/site.html
Disallow: /dosya1/
					

Bu kodların anlamı ise, tüm Google Botları dosya dizininde bulunan site.html dosyası hariç diğer tüm dosyaları taramaz ve indexlemeyecektir.


 

WordPress Kullananlar İçin En İyi Robots.txt Kodları

User-agent: Googlebot

Disallow: /wp-content/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /archives/
Disallow: /index.php
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.css$
Disallow: */feed/
Disallow: */trackback/

User-agent: Googlebot-Image
Disallow: /wp-includes/

User-agent: ia_archiver
Disallow: /

User-agent: duggmirror
Disallow: /
					

Eveet bu yazımda Robots.txt ne olduğunu ve nasıl kullanıldığını ayrıntılı bir şekilde gördük ve tanıdık.. Yazıların devamı için takipte olun.

 

Sağlıcakla Kalın..


Copyright © AMOGD 2013. All rights reserved.