Başa Dönün

Robot.txt Dosyası


Figen Yüzbaşıoğlu 26/01/2018
08/11/2018 Tarihinde Güncellendi


"Bu yazı 8 dakikada okunabilir."

Robots.txt dosyası, web sunucunuza yerleştirilen ve Googlebot’un hangi dosyaya erişip erişemeyeceğini tanıtan basit bir metin dosyasıdır.

Neden robots.txt hakkında bilgi edinmeliyim?

Robot.txt dosyası hakkında bilgi sahibi olmalısınız çünkü;

• Robots.txt dosyasının yanlış kullanımı, sıralamanıza zarar verebilir.
• Robots.txt dosyası, arama motoru örümceklerinin web sayfalarınızı görme ve etkileşimde bulunma şeklini yönetir.
• Googlebot gibi bir arama motoru örümceğinin sayfaya veya dosyaya erişim izninin olup olmadığını öğrenmek için bir sayfayı ziyaret ettiğinde baktığı ilk şey robots.txt dosyasıdır. Robots.txt dosyası girilebileceğini söylüyorsa, arama motoru örümceği sayfa dosyalarına devam eder.

İpucu: robots.txt dosyanızın Google tarafından kullanılan önemli dosyaları engelleyip engellemediklerini görmek için Google yönergeleri aracını kullanın.

 

Web siteniz için öncelikler

Robots.txt dosyası söz konusu olduğunda yapması gereken üç önemli şey vardır;

• Robots.txt dosyasına sahip olup olmadığınızı belirleyin.
• Varsa, sıralamanıza zarar vermediğinden ya da engellenmesini istemediğiniz içeriğinizi engellemediğinden emin olun.
• Robots.txt dosyasına ihtiyacınız olup olmadığını belirleyin.

 

Robots.txt dosyasına sahip olup olmadığınızı görmek

Web sitesi URL’nizin sonuna “/robots.txt” eklemeniz yeterlidir.
Örneğin: www.optimisthub.com/robots.txt

Orada bir dosyanız varsa, o robots.txt dosyanızdır. İçinde kelimeler olan bir dosya veya içinde kelimeler olmayan boş bir dosya bulacaksınız ya da hiç bir dosya bulamayacaksınız.

Robots.txt dosyanızın önemli dosyaları engelliyor olup olmadığını belirleme
Google’ın sayfalarınızı anlaması sağlayan belirli sayfa kaynaklarını engellediğinizde sizi uyaracak “Google yönergeleri aracını” kullanabilirsiniz.

 

Robots.txt dosyasına gerçekten ihtiyacınız var mı?

Sitenizde bir robots.txt dosyası olması gerekmeyebilir. Aslında genellikle ihtiyaç duyulmamaktadır.

Bunun yanı sıra;
• Arama motorlarından engellenmesini istediğiniz içeriğinizin olması,
• Robotlar için özel talimatlara ihtiyacı olan ücretli bağlantılar veya reklamlar kullanılması,
• Saygın robotlardan sitenize ince ayar yapmak istemeniz,
• Canlı olan bir siteyi geliştiriyorsunuz, ancak arama motorlarının henüz dizine eklemesini istememeniz durumuda bir robot.txt dosyasına sahip olmak isteyebilirsiniz.

Yukarıdakilerden bazılarına veya tümüne ihtiyacınız var, ancak web sunucunuza tam erişiminiz ve nasıl yapılandırılacağı konusunda bilginiz yoksa; yukarıdakilerin tümü farklı yöntemler ile yapılandırılabilmektedir. Buna karşın robots.txt dosyası tümünün kontrol edilebileceği iyi bir merkezi yerdir ve çoğu web yöneticisi robots.txt dosyasını oluşturabilir ve dosyaya erişebilir.

Başka bir açıdan;
• Siteniz basit ve hatasız ise,
• Arama motorlarından engellenmesini istediğiniz ya da engellenmesi gereken dosyalarınız yok ise,
• Yukarıda belirtilen robots.txt dosyası gerektiren durumlardan herhangi biri mevcut değil ise bir robots.txt dosyasına sahip olmak zorunda değilsiniz demektir.

Bir robots.txt dosyanızın olmaması durumunda Googlebot gibi arama motoru robotları sitenizde tam erişime sahip olacaktır. Bu, çok yaygın olan basit ve normal bir yöntemdir.

 

Robots.txt dosyası nasıl oluşturulur?

Yazarak ya da kopyalayıp yapıştırarak, bir robots.txt dosyası oluşturabilirsiniz.
Dosya sadece bir metin dosyasıdır, yani not defterini veya başka herhangi bir düz metin düzenleyicisini kullanarak oluşturabilirsiniz. Ayrıca bir kod düzenleyicisinde de yapabilirsiniz. Onları “kopyalayıp yapıştır” bile yapabilirsiniz.
“Bir robots.txt dosyası yapıyorum” diye düşünmek yerine, “bir not yazıyorum” diye düşünün, ki bunlar hemen hemen aynı işlemlerdir.

 

Robots.txt dosyasında ne yazmalıdır?

Bu, dosyanın ne yapmasını istediğinize bağlıdır.

Tüm robots.txt talimatları, aşağıdaki üç sonuçtan biriyle sonuçlanır:
• Tam izin ver: Tüm içerik taranabilir.
• Tam izin verme: Hiçbir içerik taranmayabilir.
• Koşullu izin: robots.txt dosyasındaki yönerge, belirli içeriği tarama yeteneğini belirler.

 

Tam izin – tüm içerik taranabilir

Çoğu kişi robotların web sitelerindeki her şeyi ziyaret etmesini ister. Sizin durumunuz buysa ve robotun sitenizin tüm bölümlerini dizine eklemesini istiyorsanız, robotların hoş karşılandıklarını bilmesini aşağıdakileri yaparak sağlayabilirsiniz;

1) Bir robots.txt dosyası bulundurmayın. Bu durumda Googlebot gibi bir robot ziyarete gelip bir robots.txt dosyası bulamadığında tüm web sayfalarınızı ve içeriğinizi özgürce ziyaret eder.

2) Boş bir dosya oluşturun ve robots.txt olarak adlandırın. Bu durumda Googlebot gibi bir robot ziyarete gelip robots.txt dosyasını arar. Dosyayı bulur ve okur. Okuyacak bir şey bulamadığından robot tüm web sayfalarınızı ve içeriğinizi ziyaret eder, çünkü bu durumda bu şekilde hareket edecek şekilde programlanmıştır.

3) robots.txt adlı bir dosya oluşturun ve aşağıdaki iki satırı yazın. Yazdığınız durumda Googlebot gibi bir robot ziyarete gelip robots.txt dosyasını arar. Dosyayı bulur ve okur. İlk satırı okur. Sonra ikinci satırı okur. Robot, daha sonra tüm web sayfalarınızı ve içeriğinizi ziyaret eder, çünkü yazmış olduğunuz iki satırla bunu yapmasını söylemiş olursunuz.
User-agent: *
Disallow:

 

Hiç izin vermeme – içerik taranamayabilir

Uyarı: Bu, Google’ın ve diğer arama motorlarının web sayfalarınızı dizine ekleyemeyeceği veya görüntülemeyeceği anlamına gelir.
Sitenizdeki saygın arama motorları örümceklerini engellemek için robots.txt dosyanızda şu talimatlara yer vermeniz gerekir; ancak web sayfalarınızın hiç birinin dizine eklenmemesine neden olacağı için bunu yapmak önerilmez.

User-agent: *
Disallow: /

 

Farklı kelimeler bir robots.txt dosyasında ne anlama gelir?

Kullanıcı aracı
User-agent:

“Kullanıcı aracı” kısmı, gerekli olduğu durumlarda belirli bir robota yol göstermek için kullanılır.

Bunu dosyanızda kullanmanızın iki yolu vardır:

1) User-agent: *
“Bu yönergeler tüm robotlar için geçerlidir” demektir.

2) User-agent: Googlebot
“Bu talimatlar yalnızca Googlebot’a uygulanır” demektir.

 

İzin vermeme

“İzin Vermeme” kısmı robotlara hangi klasörleri bakmamaları gerektiğini söylemek için vardır. Örneğin, arama motorlarının sitenizdeki fotoğrafları dizine eklemesini istemiyorsanız, o fotoğrafları bir klasöre yerleştirebilir ve hariç tutabilirsiniz.

Diyelim ki tüm bu fotoğrafları “photos” isimli bir klasöre koydunuz. Şimdi arama motorlarına bu klasörü dizinlememesini söylemek istiyorsunuz.

robots.txt dosyanızın bu şekilde görünmelidir:

User-agent: *
Disallow: /photos

Robots.txt dosyanızdaki bu iki satırlık metin, robotların fotoğraf klasörünüzü ziyaret etmesini önleyecektir. “User-agent *” bölümü yönergenin tüm robotlar için geçerli olduğunu bildirmektedir. “Disallow: /photos” bölümü, “fotoğraflarım klasörünü ziyaret etmeyin veya dizinde bulunmayın” demektedir.

 

Googlebot’a özgü talimatlar

Google’ın arama motorunu indekslemek için kullandığı robota Googlebot denir. Googlebot, diğer robotlardan birkaç talimat daha fazla anlayabilmektedir.

“Kullanıcı aracı” ve “İzin Vermeme” ye ek olarak, Googlebot, “İzin Ver” yönergelerini de kullanır.

İzin vermek
Allow:

“Allow:” talimatları, bir robota başka talimatlar tarafından “İzin verilmeyen” bir klasördeki bir dosyayı görmesine izin verdiğinizi belirtir. Bunu göstermek için, robotun fotoğraflarınızı ziyaret etmemesini veya dizine eklememesini söyleyen yukarıdaki örneği ele alalım. Tüm fotoğrafları “photos” adlı bir klasöre yerleştirdik ve aşağıdakine benzeyen bir robots.txt dosyası yaptık.

User-agent: *
Disallow: /photos

Şimdi, bu klasörde Googlebot’un dizine eklemesini istediğiniz mycar.jpg adlı bir fotoğraf olduğunu varsayalım. Allow: talimatıyla, Googlebot’a bunu yapmasını şu şekilde söyleyebiliriz:

User-agent: *
Disallow: /photos
Allow: /photos/mycar.jpg

Bu, Googlebot’a “photos” klasörünün taranmamasına rağmen fotoğraf klasöründeki “mycar.jpg” dosyasını ziyaret edebileceğini söyler.

 

Anahtar kavramlar

Bir robots.txt dosyası kullanıyorsanız, dosyanın düzgün bir şekilde kullanıldığından emin olun.
Yanlış bir robots.txt dosyası Googlebot’un sayfanızı dizine eklemesini engelleyebilir.
Google’ın sayfalarınızı sıralamak için ihtiyaç duyduğu sayfaları engellemediğinizden emin olun.

Kaynak: varvy.com (https://varvy.com/)

Bu makale faydalı mıydı?
 
894 Okunma   172 Beğeni

Önerilen Yazılar

2 yorum

  1. Yakup

    Bu makaleyi aydınlatıcı ve yararlı buldum fakat dosyayı sunucuda tam olarak nereye koymam gerektiğini anlayamadım, bunu da belirtirseniz tam olmuş olacak.

  2. Merhaba Yakup Bey,
    Dosyayı, projenizin bulunduğu kök dizine koymanız yeterlidir.

Görüşleriniz

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir