Arama motorlarının indeksleme robotları bir web sitesine ulaştıklarında ilk olarak kök dizinde bulunan robots.txt dosyasını ararlar. Bu dosya robotlara hangi sayfaların indekslenip hangilerinin indekslenmeyeceğini anlatmak için yerleştirilir. Robotlar sadece kök dizindeki robots.txt dosyasına bakacakları için alt dizinlere bu dosyayı yerleştirmek anlamsızdır. Eğer alt dizinlerden birisine ait url (veya url’lerin) indekslenmesini istemiyorsanız bunlar da kök dizindeki robots.txt dosyasında bildirmeniz gerekiyor. Ya da alternatif olarak indekslenmesini istemediğiniz sayfalarda Meta Tag kullanabilirsiniz. Çoğu ücretsiz blog servisi kök dizine erişime izin vermediğinden Meta Tag’lardan yararlanmak gerekecetir.
Örnek bir robots.txt adresi şu şekilde olmalıdır;
https://www.acemiblogcu.com/robots.txt
veya
http://acemiblogcu.blogspot.com/robots.txt
Aşağıdaki örneklerdeki robots.txt dosyaları ise, bulundukları hatalı pozisyon nedeni ile, robotlar tarafından dikkate alınmayacaklardır;
https://www.acemiblogcu.com/fotograflar/robots.txt
veya
http://acemiblogcu.blogspot.com/ozel/robots.txt
robots.txt dosyası sadece belirli bir şekilde düzenlenmiş metin içeriğine sahip olmalıdır ve asla HTML kodları içermemelidir. Aşağıdaki örnekleri inceleyelim;
Tüm robotların blog’unuzun tamamını indekslemesini engellemek için;
User-agent: *
Disallow: /
Blog’unuzun tamamının robotların birisi tarafından indekslenmesini engellemek için;
User-agent: Googlebot
Disallow: /
User-agent: *
Disallow:
Tüm robotların blog’unuzun tamamını indekslemesi için;
User-agent: *
Disallow:
Not: Boş bir robots.txt dosyası da aynı mesajı verecektir.
Bir dizinin tüm robotlar tarafından indekslenmesini engellemek için;
User-agent: *
Disallow: /dizin-adi/
Bir sayfanın tüm robotlar tarafından indekslenmesini engellemek için;
User-agent: *
Disallow: /dizin-adi/ozel-sayfa.html
Robots.txt dosyasında “/dizin-adi/*” veya “/dizin-adi/*.html” gibi ifadeler kullanamazsınız. Hariç tutulmasını istediğiniz sayfaları ve dizinleri teker teker belirtmek zorundasınız. Tabii ki hariç tuttuğunuz bir dizinin içindeki dosyaları ayrıca belirtmenize gerek yok :)
Örnek bir kod aşağıdaki şekilde olabilir;
# www.ornek.com için robots.txt dosyası
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/private/
Disallow: /private.html
Kaynaklar;
14 January 2006, 11:22 pm
çok faydalı, güzel bilgiler öğrendim. teşekkürler… merak ettiğim blogspot’a txt dosyasını nasıl upload edebileceğim. buna ilişkin bir bilgi verirseniz sevinirim.
9 February 2006, 9:08 pm
ben robots.txt yi sitem için nasıl yapabilirim.anlamadım.
9 February 2006, 9:26 pm
postomkutkut’a;
Maalesef yazida da belirttigim gibi ucretsiz servislerin bir cogu kok dizine erisime izin vermediginden size meta tag alternetifini kullanmanizi oneririm.
emin’e;
Masaustunde herhangi bir bos alana fareniz ile sag tiklayin ve yeni bir “Metin Belgesi” olusurun. Daha sonra bunun adini “robots” olarak degistirin. Olusturdugunuz ve adini degistirdiginiz bu dosyanin icerigini bu yazida bahsedilen sekilde duzenleyin ve sunucunuzun kok dizinine gonderin.
Baglantinizdan anladigim kadari ile Blogcu kullaniyorsunuz. Eger soruyu bu servisteki siteniz sorduysaniz maalesef size de postomkutkut’a tavisye ettigim meta taglari onerecegim.
10 February 2007, 1:01 am
Çok teşekkürler. Ben tam tersini yapıyordum. Allah razı olsun. Beni buraya yönlendiren değerli dostuma ayrıca teşekkür ederim.
17 March 2007, 11:48 am
peki sub domaini nasıl engelleyeceğiz ?
17 March 2007, 11:31 pm
robots.txt dosyasını sub domain’in kök dizinine yerleştirerek.
19 March 2007, 11:22 pm
Teşekkürler. Bu bilgilere ihtiyacım vardı.
30 March 2007, 4:10 pm
Teşekkürler cok işimize yaradı
16 May 2007, 2:44 pm
Teşekkürler! 3. günümden robotlar blogumu dürtüklemeye başladı :) En kısa zamanda indexleniriz umarım…
8 June 2007, 4:19 am
peki siz neden böyle robots dosyası oluşturdunuz ¿
User-Agent: *
Disallow: /wp/wp-content/
Sitemap: https://www.acemiblogcu.com/sitemap.xml
26 June 2007, 4:06 am
faydalı bir yazı gerçekten
26 July 2007, 12:26 pm
Çok teşekkürler, gerçekten bilgi paylaştıkça büyüyor.
16 October 2007, 1:08 am
faydalı bir yazı gerçektende bende kullanmaya başladım.
teşekkürler
22 November 2007, 2:07 pm
Çok kullanışlı ve işe yarar bir döküman, paylaştığınız için teşekkür ederim.
2 December 2007, 7:26 pm
Arama motorlarında meta tagların önemi hakkında biraz bilgi vereyim sizlere:
Örümcekler ,sitenizi gezerken sayfa kodlarını yukardan başlayarak aşağıya doğru satır satır okuyup işlerler. Örümcekler özellikle kaynak kodunun üst kısmında bulunan satırları daha çok dikkate alırlar.
Gerçek hayatta ki bir komposizyonu düşünürseniz ,komposizyonda asıl anlatılmak istenen konu giriş bölümündedir. gelişme ve sonuç bölümleri asıl konuyu destekleyici ve daha az öneme sahip bölümlerdir.
Arama motoru programlayıcılarıda bunu düşünüp, şu mantığı geliştirmişlerdir. Bir sayfanın asıl içeriği yada anlatılmak istenen bölümü üst bölümleridir.Bu sebeble bir sayfada yukarıdan aşağı gittikçe ve soldan sağa dogru gittikçe içeriğe verilen önemin azaldığını varsaymaktadırlar. Eger sitenizin en önemli olan bölümü olan üst taraflarına gereksiz meta tag doldurursanız sitenizin asıl
vurgulamak istediğiniz bölümlerine verdiginiz önemi azaltmış olursunuz.
Google gibi büyük arama motorları zaten pek fazla önemsememektedir (bu da yine bir teori ) kesin bilinmiyor ama bir sayfa için en iyi
Meta tag SEO Optimization için;
title
description
keyword
charset=iso-8859-9
yeterli meta taglardır.Siz aksini belirtmedikçe zaten sitenideki linkleri index, follow yapmaktadırlar. Sitenizin belli bir pr degeri yoksa yada çok sık güncellenmiyorsa, siz istediginiz kadar “revisit-after=1 days” yapın arama motorları gelmiyor.
1 October 2008, 3:23 pm
simap eklentisinin oluşturduğu robost txt dosyası
# BEGIN XML-SITEMAP-PLUGIN
Sitemap: http://www.site.com/sitemap.xml.gz
# END XML-SITEMAP-PLUGIN
sadece bunlar yazılı dosyada ben ek olrak bir klasöre erişimi engellenek istiyorum bu yazının altına
User-agent: *
Disallow: /dizin-adi/ eklemek yeterli olurmu ya da ilgili klasörün içinende robots.txt dosyası oluşturup User-agent: *
Disallow: / eklemeliyim
4 July 2009, 4:14 pm
aşağıdaki siteden robots.txt inizi oluşturabilirsiniz.
http://www.mcanerin.com/en/search-engine/robots-txt.asp
28 July 2009, 9:37 pm
Çok yararlı bi döküman saol.
19 August 2010, 12:59 pm
Teşekkürler gerçekten robots.txt nin olayını kavradım. yalnız anlamadığım şey şu ki, 3.kişiler sitenin /robots.txt dosyasına erişebildiğine göre buna bakıp indexlenmesini istemediğim gizli klasörlerimin adına ulaşamazlar mı?
24 May 2011, 4:49 pm
Sitemdeki bazı sayfaların internette çıkmasını istemiyorum.Tam çözemedim; yardımcı olursanız çok sevinirim.
Ne yapmam lazım ?
Teşekkürler…
21 August 2011, 1:21 pm
@ecank
Evet benimde merak ettiğim konu o. Bilgisi olan arkadaşlar aydınlatabilirse güzel olacak.
1 June 2013, 9:34 pm
http://www.always-ahead.org/index.php/sitemap.xml olur mu peki?
23 August 2015, 11:58 pm
şuanki eklentiler zaten sitemap ve robot.txt dosyalarını otomatik oluşturmaktalar, ama işin mantığını anlamaya yardımcı olması açısından güzel bir kaynak olmuş.