Aradığınız Herşeyin Adresi

Robots.txt dosyası nasıl kolayca yazılır – Takip Edilecek 6 Altın Aşama

Robots.txt dosyası, benim gibi birçok blog yazarının gizemi. Ama gerçek şu ki, bu dünyada keşfedilmediğiniz sürece hiçbir şey gizemlidir. Eğer endişe varsa kolayca bir robots.txt dosyası nasıl yazılacağını, şimdiye kadar panik yapmayın. Onun kadar basit bir blog yazısı yazmak veya varolan bir makaleyi düzenlemek. Tek bilmeniz gereken, komut hangi eylem için kullanılır. Genellikle robotlar / örümcekler sitemizi birçok şey için tarar, bunlar makale sayfaları, yönetici panelimiz, etiketlerimiz, arşivlerimiz, ne olmayabilir. Onlar sadece görünür ve erişilebilir olan her şeyi dizine eklerler. Web sitemizdeki herşeyi dizine eklemelerini engellemek çok önemlidir. Tıpkı yabancılarımızı dairelerimizde dolaşmaya kısıtlıyoruz.

Bir sitenin /robots.txt dosyası www.domain-name.com/robots.txt adresinde bulunacaktır . Örneğin, www.idriskarakaya.com/robots.txt . Genellikle Robots.txt dosyası Robots Exclusion Protocol olarak da bilinir. Dolayısıyla bir robot web sitenizi her ziyaret ettiğinde, öncelikle /robots.txt sayfasını ziyaret etmeniz ve ardından dizin oluşturma için diğer sayfaları ziyaret etmeniz gerekir.

Bir Robots.txt Dosyası Nasıl Kolaylıkla Yazılır: 6 Kuralı

Bugün, istenmeyen şeyler için sitemizi taramak için arama motoru örümceklerini nasıl kısıtlayabileceğimizi kontrol edeceğiz. Bir /robots.txt dosyası yazmak için altıncı evreli 6 aşamayı bilmelisiniz. Ayrıca, bir /robots.txt dosyası yazmak için tek bir süre için temel ve ileri komutları atleast öğreneceksiniz. Çünkü, her gün değişmeyecek. Emirleriniz bittikten sonra tekrar dokunmayacaksınız (sadece diyor). Açıkçası, konuyu mümkün olduğunca düzenleyebilirsiniz. Başarılı bir /robots.txt dosyası yazmak için gereken en önemli komutları ve aşamaları görelim.

Aşama 1: * ve / girdileri arasındaki farklar

Başarılı bir /robots.txt dosyası yazmadan önce, temel komutları ve kullanımlarını bilmelisiniz. /robots.txt hakkında bilmeniz gereken ilk şey User-agent komutu. Sonra , Aşağıda açıklanan İzin Verme komutu gelir .

User-agent: *
Disallow:

Burada User-agent: * , bölümün tüm robotlara uygulanmış olduğu anlamına gelir. * Genelde hepsini ifade eden joker karakter olarak adlandırılır. Disallow komutuna gelince, robotlar istedikleri yere endeksleyemediklerini söyler. Dolayısıyla * burada, robotlar devam etmeden önce tüm konuları okumalısınız.

User-agent: *
Disallow: /

İzin Verme: / Burada, robotların bir şey taramasına izin verilmediği anlamına gelir. Şimdi farkın var mı? Eğer * sonra tümü dizine eklerseniz, bir şey dizin etmezse / ederseniz!

Aşama 2: Robots.txt dosyasındaki ilerleme komutları

Böylece * ve / arasındaki farkı bulduk; şu an /robots.txt dosyasındaki ilerleme komutları hakkında biraz daha bilgi edinme zamanı. User-agent ve Disallow’dan başlayarak, istenmeyen robotların sitemize erişmesini yasaklayan birkaç komut çıkartacağız.

User-agent: *
Disallow: /cgi-bin/

Bu yukarıdaki komut, tüm robots dosyalarının cgi-bin klasöründeki herhangi bir şeyin endekslenmesine izin verilmediği anlamına gelir. Yani cgi-bin klasöründe cgi-bin / newsite.cgi veya cgi-bin / example / idontknow.cgi gibi alt klasörler ve sayfalar varsa, dizine eklenmeyecek veya robotlar tarafından erişilemeyeceklerdir.

Ve belirli bir robot dosyasını kısıtlamak isterseniz, sitenizin dizine eklenmesini engellemek için robot adından bahsedin.

User-agent: Googlebot-Image
Disallow: /

Yukarıdaki örnekte, Google resim arama botunu sitemizin imajları için indekslemek üzere sınırlandırıyoruz. Burada, Googlebot-Image, sitemizden çıkarmaya çalıştığımız robot. Bu nedenle, /robots.txt dosyanızdan izin almadan Googlebot-Image, “/” kök dizinindeki ve alt klasörlerinin herhangi bir dosyasını dizine eklememelidir. Sitenizdeki herhangi bir şeyi dizine eklemeyeceksiniz. Bu bot genellikle Google Görseller aramasında göstermek için resim taramak için kullanılır.

Aşama 3: Bir şey / ve bir şey arasındaki fark

Burada, sağlık durumunuza zarar verebilecek farklı dosyaları, klasörleri veya yerleri nasıl sınırlandırabileceğimizi göreceğiz.

User-agent:  *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes

Yukarıdaki uzun /robots.txt komutları robotlara, cgi-bin dizinindeki herhangi bir şeyin bot tarafından erişilemediğini bildirir. Benzer şekilde wp-admin, wp-content, wp-includes dizinleri, robotlar tarafından geçersiz kılınmakla sınırlıdır.

Alos “/” kullanımı ile ilgili çok önemli bir noktaya dikkat etmeniz gerekiyor. Sitenizde bir dizin veya klasörü belirtmek isterseniz /robots.txt dosyasında “/” ile başlamak ve bitirmek zorundalar. Örneğin,

User-agent:*
Disallow: /cgi-bin/

Bu, robotlara cgi-bin’in bir dizin olduğunu söyleyecektir. Ve

User-agent:*
Disallow: /cgi-bin

Bu, robotlara cgi-bin’i bir dizine değil, web sitenizdeki bir dosyaya çevirmesini söyleyecektir. Tıpkı cgi-bin.html gibi. Bu nedenle başında “/” eksik ve bir dizin için biten bir hata yapmaktan kaçının.

Aşama 4: İstenmeyen görüntüleri kısıtlama

Google bot’un belirli bir resmi endekslendirmesini istemiyorsanız şurayı sınırlandırabilirsiniz.

User-agent: Googlebot-Image
Disallow: /images/adsense.jpg

Yukarıdaki komutu kullanarak Googlebot-Image’ı index adsense.jpg resmiyle sınırlandırabilirsiniz.

Aşama 5: İstenmeyen sayfaları kısıtlama

Yukarıdaki komuta benzer şekilde, /robots.txt dosyanızdaki belirli bir sayfayı da kısıtlayabilirsiniz.

User-agent: *
Disallow: /seosiren/adsense.html
Disallow: /seosiren/applications.html
Disallow: /seosiren/secret.html

Yukarıdaki komut, robotların yukarıda belirtilen sayfaları dizine eklememelerini veya taramamalarını söyler. / Seosiren / burada dizin ve adsense.html, applications.html, secret.html sayfaları anlamına gelir. Dolayısıyla, dizin olacak diğer sayfaların yanı sıra / seosiren’i de kısıtlıyoruz.

Aşama 6: Mükemmel bir /robots.txt düzen dosyası nedir?

/robots.txt dosyanız bunun gibi bir şey olmalıdır,

Site Haritası: http://www.idriskarakaya.com/sitemap.xml

User-agent:  *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /recommended/
Disallow: /comments/feed/
Disallow: /wp-content/plugins/
Disallow: /trackback/
Disallow: /index.php
Disallow: /xmlrpc.php

User-agent: Mediapartners-Google*
Allow: /

User-agent: Googlebot-Image
Allow: /wp-content/uploads/

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Mobile
Allow: /

Yukarıdaki /robots.txt dosyasında, robotlar tarafından dizine eklenip taranacak en önemli dizinleri ve dosyaları kısıtlıyoruz.

Yorumlar