Bir Etki Alanındaki Robots.txt Dosyası nedir?
Webmaster Araçları Web Siteleri Seo Kahraman / / March 19, 2020
Son Güncelleme Tarihi:
Yeni web sitesi sahipleri için en büyük hatalardan biri robots.txt dosyalarına bakmıyor. Her neyse, nedir ve neden bu kadar önemli? Cevaplarınız bizde.
Bir web siteniz varsa ve sitenizin SEO sağlığına önem veriyorsanız, alan adınızdaki robots.txt dosyasına çok aşina olmalısınız. İster inanın ister inanmayın, hızlı bir şekilde bir alan adı başlatan, hızlı bir WordPress web sitesi yükleyen ve robots.txt dosyalarıyla hiçbir şey yapmayı asla rahatsız etmeyen çok sayıda insan.
Bu tehlikeli. Kötü yapılandırılmış bir robots.txt dosyası aslında sitenizin SEO sağlığını yok edebilir ve trafiğinizi büyütme şansınız olabilir.
Robots.txt Dosyası nedir?
Robots.txt dosyası uygun bir şekilde adlandırılmıştır, çünkü aslında web robotları için (arama motoru robotları gibi) web sitenizde nasıl ve ne tarayabileceklerine ilişkin yönergeleri listeleyen bir dosyadır. Bu bir web standardı olmuştur ve 1994 yılından beri web siteleri tarafından takip edilmektedir ve tüm büyük web tarayıcıları standarda uymaktadır.
Dosya, web sitenizin kök klasöründe metin biçiminde (.txt uzantılı) depolanır. Aslında, herhangi bir web sitesinin robot.txt dosyasını yalnızca alan adını ve ardından /robots.txt yazarak görüntüleyebilirsiniz. Bunu groovyPost ile denerseniz iyi yapılandırılmış bir robot.txt dosyası örneği görürsünüz.
Dosya basit ama etkilidir. Bu örnek dosya robotlar arasında ayrım yapmıyor. Komutlar, tüm robotlara Kullanıcı aracısı: * direktif. Bu, onu izleyen tüm komutların siteyi taramak için ziyaret eden tüm robotlar için geçerli olduğu anlamına gelir.
Web Tarayıcılarını Belirtme
Belirli web tarayıcıları için belirli kurallar da belirtebilirsiniz. Örneğin, Googlebot’un (Google’ın web tarayıcısı) sitenizdeki tüm makaleleri taramasına izin verebilirsiniz, ancak Rus web tarayıcısı Yandex Bot'un sitenizdeki aşağılayıcı bilgiler içeren makaleleri taramasına izin verme Rusya.
Web siteleri hakkında bilgi için internette gezinen yüzlerce web tarayıcısı vardır, ancak endişelenmeniz gereken en yaygın 10 burada listelenmiştir.
- Googlebot: Google arama motoru
- Bingbot: Microsoft’un Bing arama motoru
- höpürdeterek içmek: Yahoo arama motoru
- DuckDuckBot: DuckDuckGo arama motoru
- Baiduspider: Çin Baidu arama motoru
- YandexBot: Rusça Yandex arama motoru
- Exabot: Fransız Exalead arama motoru
- Facebot: Facebook’un tarama botu
- ia_archiver: Alexa’nın web sıralaması tarayıcısı
- MJ12bot: Büyük bağlantı dizine ekleme veritabanı
Googlebot'un sitenizdeki her şeyi dizine eklemesine izin vermek istiyorsanız, ancak Yandex'in Rusça tabanlı makale içeriğinizi dizine eklemesini engelleyin, robots.txt'nize aşağıdaki satırları eklersiniz dosya.
Kullanıcı-aracı: googlebot
Disallow: Disallow: / wp-admin /
İzin verme: /wp-login.php
Kullanıcı-aracı: yandexbot
Disallow: Disallow: / wp-admin /
İzin verme: /wp-login.php
İzin verme: / rusya /
Gördüğünüz gibi, ilk bölüm Google'ın yalnızca WordPress giriş sayfanızı ve yönetim sayfalarınızı taramasını engelliyor. İkinci bölüm Yandex'i aynı değil, aynı zamanda sitenizin Rusya karşıtı içeriğe sahip makaleler yayınladığınız tüm alanından da engelliyor.
Bu, Disallow web sitenizi ziyaret eden belirli web tarayıcılarını kontrol etme komutu.
Diğer Robots.txt Komutları
İzin verme, robots.txt dosyanızda erişebileceğiniz tek komut değildir. Bir robotun sitenizi nasıl tarayabileceğini yönlendirecek diğer komutlardan herhangi birini de kullanabilirsiniz.
- Disallow: Kullanıcı temsilcisine belirli URL'leri veya sitenizin tüm bölümlerini taramaktan kaçınmasını söyler.
- İzin vermek: Bir üst klasöre izin vermemiş olsanız bile, sitenizdeki belirli sayfalara veya alt klasörlere ince ayar yapmanızı sağlar. Örneğin,: / about / öğesine izin veremezsiniz, ancak: / about / ryan / öğesine izin verebilirsiniz.
- Tarama-gecikmesi: Bu, tarayıcıya sitenin içeriğini taramaya başlamadan önce xx saniye beklemesini söyler.
- Site haritası: Arama motorlarına (Google, Ask, Bing ve Yahoo) XML site haritalarınızın konumunu sağlayın.
Botların yapacağını unutmayın bir tek bot adını belirtirken verdiğiniz komutları dinleyin.
İnsanların yaptığı yaygın bir hata, / wp-admin / gibi alanların tüm botlardan ayrılmasıdır, ancak daha sonra bir googlebot bölümü belirtin ve yalnızca diğer alanlara (/ about / gibi) izin vermeyin.
Botlar yalnızca bölümlerinde belirttiğiniz komutları izlediğinden, tüm botlar için belirttiğiniz diğer tüm komutları (* kullanıcı-aracısını kullanarak) yeniden başlatmanız gerekir.
- Disallow: Bir kullanıcı-aracıya belirli bir URL'yi taramamasını söylemek için kullanılan komut. Her URL için yalnızca bir “Disallow:” satırına izin verilir.
- İzin Ver (Yalnızca Googlebot için geçerlidir): Googlebot'a, üst sayfasına veya alt klasörüne izin verilmemiş olsa bile bir sayfaya veya alt klasöre erişebileceğini söyleme komutu.
- Tarama-gecikmesi: Bir tarayıcının sayfa içeriğini yüklemeden ve taramadan önce kaç saniye beklemesi gerektiği. Googlebot'un bu komutu kabul etmediğini, ancak tarama hızının Google Search Console'da ayarlanabileceğini unutmayın.
- Site haritası: Bu URL ile ilişkilendirilmiş bir XML site haritalarının konumunu çağırmak için kullanılır. Bu komutun yalnızca Google, Ask, Bing ve Yahoo tarafından desteklendiğini unutmayın.
Robots.txt dosyasının, meşru botların (arama motoru botları gibi) sitenizi daha etkili bir şekilde taramasına yardımcı olması gerektiğini unutmayın.
Sitenizi, e-posta adreslerini kazımak veya içeriğinizi çalmak gibi şeyler yapmak için tarayan birçok hain tarayıcı var. Bu tarayıcıların sitenizdeki herhangi bir şeyi taramasını engellemek için robots.txt dosyanızı denemek ve kullanmak istiyorsanız rahatsız etmeyin. Bu tarayıcıların içerik oluşturucuları genellikle robots.txt dosyanıza koyduğunuz her şeyi yok sayar.
Neden Bir Şeylere İzin Verme?
Google’ın arama motorunun web sitenizde olabildiğince kaliteli içeriği taramasını sağlamak, çoğu web sitesi sahibi için birincil sorundur.
Ancak, Google yalnızca sınırlı bir tarama bütçesi ve tarama hızı bireysel sitelerde. Tarama hızı, Googlebot'un tarama etkinliği sırasında sitenize saniyede kaç istekte bulunacağıdır.
Daha da önemlisi, Googlebot'un sitenizi bir oturumda taramak için toplam kaç istekte bulunacağı tarama bütçesi. Google, sitenizin çok popüler olan veya son zamanlarda değişen alanlarına odaklanarak tarama bütçesini “harcar”.
Bu bilgilere kör değilsiniz. Ziyaret ederseniz Google Web Yöneticisi Araçları, tarayıcının sitenizi nasıl ele aldığını görebilirsiniz.
Gördüğünüz gibi, tarayıcı sitenizdeki etkinliğini her gün oldukça sabit tutar. Tüm siteleri taramaz, yalnızca en önemli olduğunu düşündüğü siteleri tarar.
En önemli sayfaların ne olduğunu söylemek için robots.txt dosyanızı kullanabildiğinizde, sitenizde neyin önemli olduğuna karar vermek neden Googlebot'a bırakılıyor? Bu, Googlebot'un sitenizdeki düşük değerli sayfalarda zaman kaybetmesini önleyecektir.
Tarama Bütçenizi Optimize Etme
Google Web Yöneticisi Araçları ayrıca Googlebot'un robots.txt dosyanızın iyi olup olmadığını ve herhangi bir hata olup olmadığını kontrol etmenizi sağlar.
Bu, robots.txt dosyanızı doğru bir şekilde yapılandırdığınızı doğrulamanıza yardımcı olur.
Googlebot'tan hangi sayfalara izin vermemelisiniz? Site SEO'nuzun aşağıdaki sayfa kategorilerine izin vermemesi iyidir.
- Yinelenen sayfalar (yazıcı dostu sayfalar gibi)
- Form tabanlı siparişleri izleyen sayfalara teşekkür ederiz
- Sipariş veya bilgi sorgu formları
- İletişim sayfaları
- Giriş sayfaları
- Olası satış mıknatısı "satış" sayfaları
Robots.txt Dosyanızı Yoksaymayın
Yeni web sitesi sahiplerinin yaptığı en büyük hata asla robots.txt dosyalarına bakmak değildir. En kötü durum, robots.txt dosyasının aslında sitenizin veya sitenizin alanlarının taranmasını engellemesidir.
Robots.txt dosyanızı gözden geçirdiğinizden ve optimize edildiğinden emin olun. Bu şekilde, Google ve diğer önemli arama motorları, web sitenizle dünyaya sunduğunuz tüm muhteşem şeyleri "görür".