فایل Robots.txt چیست و چرا استفاده از آن مهم می باشد ؟
4 سال پیش
فایل Robots.txt چیست و چرا استفاده از آن مهم می باشد ؟

فایل Robots.txt چیست و چرا استفاده از آن مهم می باشد ؟

فایل robots.txt وظیفه محدود نمودن دسترسی ربات های گوگل و دیگر موتورهای جستجو به محتوای یک سایت را به عهده دارد. در حقیقت، فایل robots.txt یک فایل متنی می باشد که به موتورهای جستجو می گوید کدام صفحات وب را خزش و ایندکس نماید و چه صفحاتی را خزش و ایندکس ننماید.

 

Robots.txt

 

خزیدن ربات ها به معنای بررسی محتوای صفحات وب می باشد و ایندکس نمودن صفحات به معنی ذخیره سازی یک نسخه از محتوای صفحات در بایگانی گوگل می باشد. موتورهای جستجو در میان صفحات یک سایت خزش (Crawl) می نمایند و آن ها را ایندکس (Index) می کنند. ربات های جستجوگر پیش از خزش یک صفحه از سایت، اول فایل robots.txt را می خوانند و بر طیق دستورالعمل های این فایل، اجازه خزیدن یا ایندکس صفحات را می یابند . باید نوجه کرد که چه صفحاتی برای خزش یا ایندکس موتورهای جستجو محدود می گردد. صفحاتی مثل لندینگ پیج ها نباید به اشتباه برای موتورهای جستجو مسدود گردند.

اهمیت استفاده از فایل robots.txt

استفاده از فایل robots.txt این امکان را فراهم می نماید که صفحات سایت فقط برای کاربران اینترنتی طراحی گردند. همچنین موجب می گردد صفحات بی ارزش و کم محتوا از دید موتورهای جستجو پنهان شوند و  بوسیله آن ها ایندکس نگردند. از آنجایی که همه صفحات یک سایت از اهمیت و امنیت یکسانی برخوردار نمی باشند، پس نیاز به فایل robots.txt احساس می گردد. برخی از صفحات مهم سایت، نیاز به خزش روزانه و ایندکس روزانه دارند و بعضی از صفحات کم اهمیت ماهی یکبار نیاز به خزش و ایندکس شدن دارند. فایل robots.txt چگونگی خزیده گشتن و ایندکس شدن صفحات وب‌سایت‌ بوسیله ربات‌های جستجوگر را تعیین می نماید.

استفاده ربات های جستجوگر از فایل robots.txt

همه ربات های جستجوگر استاندارد به قوانین و محدودیت ها احترام می گذارند و به طور کامل آن ها را رعایت می نمایند. یعنی صفحاتی که برای خزش و ایندکس مسدود گشته اند را بازدید و ایندکس نمی نمایند. ولی ربات های اسپم به وجود فایل robots.txt توجهی ندارند و کار خود را انجام می دهند. برای حفظ امنیت محتوا و پنهان نمودن آن از دید ربات های اسپم، بهتر است که برای صفحات پسورد گذاشته شود. ربات های دیگری نیز هستند که از دستورات فایل robots.txt پیروی نمی نمایند. این ربات ها مسئول بررسی امنیت وب سایت می باشند و حتی ممکن است کار خود را از بخش هایی از سایت آغاز کنند که اجازه دسترسی به آن ها داده نشده است.

Robots.txt

دستورات فایل robots.txt

فایل robots.txt سایت از دو دستور کلی تبعیت می نماید که برای ربات گوگل، یک دستور دیگر نیز اضافه می گردد:

 

User-agent
این دستور برای هدف گیری یک ربات خاص استفاده می‌گردد. از این دستور می‌توان به دو شکل در فایل robots.txt استفاده نمود.

اگر قصد دادن یک دستور به همه ربات های جستجوگر وجود داشته باشد، فقط کافیست پس از عبارت User-agent از علامت “*” استفاده گردد. مثل زیر:

User-agent: *
دستور بالا به این معنا می باشد که “دستورات فایل، برای همه ربات‌های جستجوگر یکسان عمل می‌نماید.”

ولی اگر قصد دادن یک دستور خاص فقط به یک ربات خاص مثل ربات گوگل (GoogleBot) وجود داشته باشد، دستور باید به صورت زیر نوشته شود:

User-agent: Googlebot
کد بالا به این معنا می باشد که “اجرای دستورات فایل، تنها برای ربات گوگل الزامی می باشد.”

Disallow
دستور Disallow به ربات‌های جستجوگر می‌گوید که چه فولدرهایی از وب‌سایت را نباید بررسین مایند. در حقیقت این دستور، بیانگر URLای از سایت می باشد که از ربات‌های جستجوگر پنهان می ماند.

مثلا  اگر تمایل ندارید موتورهای جستجو، تصاویر وب سایت تان را ایندکس نمایند، می‌توانید همه تصاویر سایت را درون یک پوشه در هاستینگ خود بگذارید و از دسترس موتورهای جستجو خارج نمایید.

فرض کنید که همه این تصاویر را داخل فولدر “Photos” منتقل نموده‌اید. برای آنکه به موتورهای جستجو بگویید که این تصاویر را ایندکس ننمایند، باید دستور زیر را بنویسید:

User-agent: *
Disallow: /photos
دو خط کدنویسی بالا در فایل robots.txt، به هیچ یک از ربات‌های جستجوگر اجازه ورود به فولدر تصاویر سایت‌تان را نخواهد داد. در کد دستوری فوق، قسمتUser-agent: * می‌گوید که اجرای این دستور برای همه ربات‌های جستجوگر الزامی می باشد. قسمت Disallow: /photos نیز بیانگر این می باشد که ربات، اجازه ورود یا ایندکس فولدر تصاویر سایت را ندارد.

Robots.txt

Allow

ربات خزنده و ایندکس کنندۀ گوگل، Googlebot نامیده می شود. این ربات نسبت به دیگر ربات‌های جستجوگر، دستورات بیشتری را متوجه می‌شود. علاوه بر دستورات “User-agent” و “Disallow”، ربات گوگل دستور دیگری به  اسم “Allow” را نیز درک می‌نماید.

دستور Allow این امکان را فراهم می کند تا ربات گوگل اجازه مشاهده یک فایل، در فولدری که Disallowed شده است را داشته باشد. در مثال قبل کدی را نوشتیم که به ربات‌های جستجو، اجازه دسترسی به تصاویر سایت را نمی‌داد. تمام تصاویر سایت را درون یک پوشه به نام Photos قرار دادیم و با دستور زیر یک فایل robots.txt ایجاد کردیم:

User-agent: *

Disallow: /photos

اکنون تصور نمایید درون این فولدری که در هاستینگ سایت قرار دارد، تصویری به اسم ezweb.jpg وجود دارد که خواهان ایندکس گشتن آن توسط Googlebot می باشیم. با استفاده از دستور Allow می‌توانیم به ربات گوگل بگوییم که ایندکس را انجام دهد:

User-agent: *

Disallow: /photos

Allow: /photos/novin.jpg

این دستور به ربات گوگل می‌گوید که اجازه دیدن و ایندکسِ فایل ezweb.jpg را دارد، برعکس اینکه فولدر Photos از دسترس ربات‌های جستجوگر خارج گشته است.

 

اضافه نمودن فایل robots.txt به گوگل وبمستر تولز

سرچ کنسول گوگل یا همان وبسمتر گوگل قسمتی برای تست و ارزیابی فایل robots.txt که دسترسی ربات های جستجوگر به آن محدود شده است، در نظر گرفته است. این صفحه با نام robots.txt Tester شناخته می‌شود. در این بخش می توان محتوای فایل robots.txt را وارد نمود و برای گوگل وبمستر تولز ارسال نمود. پس از تایید گوگل وبمستر، می توان میزان محدودیت ربات های گوگل و دسترسی آن ها به محتوای سایت را مورد سنجش قرار داد.

 

امیدوارم مقاله فایل Robots.txt چیست و چرا استفاده از آن مهم می باشد ؟ که توسط تیم کارشناسی شرکت لحظه وب ارائه شده، مورد استفاده دوستان و عزیزانی که قصد برنامه نویسی و طراحی سایت و … را دارند قرار گرفته باشد .

 

شما می توانید سفارش طراحی انواع سایت خود را از طریق شماره تلفن ۰۹۱۲۲۱۴۱۴۶۹ با ما در میان بگذارید. پیاده سازی طرح و ایده شما به بهترین شکل ممکن، مهم ترین هدف ما در شرکت لحظه وب است. همچنین می توانید برای دریافت مشاوره رایگان از متخصصین شرکت با ما در تماس باشید

 

نظرات ( بدون دیدگاه )
author image
رضا جوادی
شنبه، 12 مهر 1397 ، در ساعت 4 بعد ظهر پاسخ

لورم ایپسوم متن ساختگی با تولید سادگی نامفهوم از صنعت چاپ و با استفاده از طراحان گرافیک است.

author image
رضا جوادی
شنبه، 12 مهر 1397 ، در ساعت 4 بعد ظهر پاسخ

لورم ایپسوم متن ساختگی با تولید سادگی نامفهوم از صنعت چاپ و با استفاده از طراحان گرافیک است.

author image
رضا جوادی
شنبه، 12 مهر 1397 ، در ساعت 8 بعد ظهر پاسخ

لورم ایپسوم متن ساختگی با تولید سادگی نامفهوم از صنعت چاپ و با استفاده از طراحان گرافیک است.

ارسال نظر

آدرس ایمیل شما منتشر نخواهد شد .