فایل Robots.txt چیست و چرا استفاده از آن مهم می باشد ؟
فایل Robots.txt چیست و چرا استفاده از آن مهم می باشد ؟
فایل robots.txt وظیفه محدود نمودن دسترسی ربات های گوگل و دیگر موتورهای جستجو به محتوای یک سایت را به عهده دارد. در حقیقت، فایل robots.txt یک فایل متنی می باشد که به موتورهای جستجو می گوید کدام صفحات وب را خزش و ایندکس نماید و چه صفحاتی را خزش و ایندکس ننماید.
خزیدن ربات ها به معنای بررسی محتوای صفحات وب می باشد و ایندکس نمودن صفحات به معنی ذخیره سازی یک نسخه از محتوای صفحات در بایگانی گوگل می باشد. موتورهای جستجو در میان صفحات یک سایت خزش (Crawl) می نمایند و آن ها را ایندکس (Index) می کنند. ربات های جستجوگر پیش از خزش یک صفحه از سایت، اول فایل robots.txt را می خوانند و بر طیق دستورالعمل های این فایل، اجازه خزیدن یا ایندکس صفحات را می یابند . باید نوجه کرد که چه صفحاتی برای خزش یا ایندکس موتورهای جستجو محدود می گردد. صفحاتی مثل لندینگ پیج ها نباید به اشتباه برای موتورهای جستجو مسدود گردند.
اهمیت استفاده از فایل robots.txt
استفاده از فایل robots.txt این امکان را فراهم می نماید که صفحات سایت فقط برای کاربران اینترنتی طراحی گردند. همچنین موجب می گردد صفحات بی ارزش و کم محتوا از دید موتورهای جستجو پنهان شوند و بوسیله آن ها ایندکس نگردند. از آنجایی که همه صفحات یک سایت از اهمیت و امنیت یکسانی برخوردار نمی باشند، پس نیاز به فایل robots.txt احساس می گردد. برخی از صفحات مهم سایت، نیاز به خزش روزانه و ایندکس روزانه دارند و بعضی از صفحات کم اهمیت ماهی یکبار نیاز به خزش و ایندکس شدن دارند. فایل robots.txt چگونگی خزیده گشتن و ایندکس شدن صفحات وبسایت بوسیله رباتهای جستجوگر را تعیین می نماید.
استفاده ربات های جستجوگر از فایل robots.txt
همه ربات های جستجوگر استاندارد به قوانین و محدودیت ها احترام می گذارند و به طور کامل آن ها را رعایت می نمایند. یعنی صفحاتی که برای خزش و ایندکس مسدود گشته اند را بازدید و ایندکس نمی نمایند. ولی ربات های اسپم به وجود فایل robots.txt توجهی ندارند و کار خود را انجام می دهند. برای حفظ امنیت محتوا و پنهان نمودن آن از دید ربات های اسپم، بهتر است که برای صفحات پسورد گذاشته شود. ربات های دیگری نیز هستند که از دستورات فایل robots.txt پیروی نمی نمایند. این ربات ها مسئول بررسی امنیت وب سایت می باشند و حتی ممکن است کار خود را از بخش هایی از سایت آغاز کنند که اجازه دسترسی به آن ها داده نشده است.
دستورات فایل robots.txt
فایل robots.txt سایت از دو دستور کلی تبعیت می نماید که برای ربات گوگل، یک دستور دیگر نیز اضافه می گردد:
User-agent
این دستور برای هدف گیری یک ربات خاص استفاده میگردد. از این دستور میتوان به دو شکل در فایل robots.txt استفاده نمود.
اگر قصد دادن یک دستور به همه ربات های جستجوگر وجود داشته باشد، فقط کافیست پس از عبارت User-agent از علامت “*” استفاده گردد. مثل زیر:
User-agent: *
دستور بالا به این معنا می باشد که “دستورات فایل، برای همه رباتهای جستجوگر یکسان عمل مینماید.”
ولی اگر قصد دادن یک دستور خاص فقط به یک ربات خاص مثل ربات گوگل (GoogleBot) وجود داشته باشد، دستور باید به صورت زیر نوشته شود:
User-agent: Googlebot
کد بالا به این معنا می باشد که “اجرای دستورات فایل، تنها برای ربات گوگل الزامی می باشد.”
Disallow
دستور Disallow به رباتهای جستجوگر میگوید که چه فولدرهایی از وبسایت را نباید بررسین مایند. در حقیقت این دستور، بیانگر URLای از سایت می باشد که از رباتهای جستجوگر پنهان می ماند.
مثلا اگر تمایل ندارید موتورهای جستجو، تصاویر وب سایت تان را ایندکس نمایند، میتوانید همه تصاویر سایت را درون یک پوشه در هاستینگ خود بگذارید و از دسترس موتورهای جستجو خارج نمایید.
فرض کنید که همه این تصاویر را داخل فولدر “Photos” منتقل نمودهاید. برای آنکه به موتورهای جستجو بگویید که این تصاویر را ایندکس ننمایند، باید دستور زیر را بنویسید:
User-agent: *
Disallow: /photos
دو خط کدنویسی بالا در فایل robots.txt، به هیچ یک از رباتهای جستجوگر اجازه ورود به فولدر تصاویر سایتتان را نخواهد داد. در کد دستوری فوق، قسمتUser-agent: * میگوید که اجرای این دستور برای همه رباتهای جستجوگر الزامی می باشد. قسمت Disallow: /photos نیز بیانگر این می باشد که ربات، اجازه ورود یا ایندکس فولدر تصاویر سایت را ندارد.
Allow
ربات خزنده و ایندکس کنندۀ گوگل، Googlebot نامیده می شود. این ربات نسبت به دیگر رباتهای جستجوگر، دستورات بیشتری را متوجه میشود. علاوه بر دستورات “User-agent” و “Disallow”، ربات گوگل دستور دیگری به اسم “Allow” را نیز درک مینماید.
دستور Allow این امکان را فراهم می کند تا ربات گوگل اجازه مشاهده یک فایل، در فولدری که Disallowed شده است را داشته باشد. در مثال قبل کدی را نوشتیم که به رباتهای جستجو، اجازه دسترسی به تصاویر سایت را نمیداد. تمام تصاویر سایت را درون یک پوشه به نام Photos قرار دادیم و با دستور زیر یک فایل robots.txt ایجاد کردیم:
User-agent: *
Disallow: /photos
اکنون تصور نمایید درون این فولدری که در هاستینگ سایت قرار دارد، تصویری به اسم ezweb.jpg وجود دارد که خواهان ایندکس گشتن آن توسط Googlebot می باشیم. با استفاده از دستور Allow میتوانیم به ربات گوگل بگوییم که ایندکس را انجام دهد:
User-agent: *
Disallow: /photos
Allow: /photos/novin.jpg
این دستور به ربات گوگل میگوید که اجازه دیدن و ایندکسِ فایل ezweb.jpg را دارد، برعکس اینکه فولدر Photos از دسترس رباتهای جستجوگر خارج گشته است.
اضافه نمودن فایل robots.txt به گوگل وبمستر تولز
سرچ کنسول گوگل یا همان وبسمتر گوگل قسمتی برای تست و ارزیابی فایل robots.txt که دسترسی ربات های جستجوگر به آن محدود شده است، در نظر گرفته است. این صفحه با نام robots.txt Tester شناخته میشود. در این بخش می توان محتوای فایل robots.txt را وارد نمود و برای گوگل وبمستر تولز ارسال نمود. پس از تایید گوگل وبمستر، می توان میزان محدودیت ربات های گوگل و دسترسی آن ها به محتوای سایت را مورد سنجش قرار داد.
امیدوارم مقاله فایل Robots.txt چیست و چرا استفاده از آن مهم می باشد ؟ که توسط تیم کارشناسی شرکت لحظه وب ارائه شده، مورد استفاده دوستان و عزیزانی که قصد برنامه نویسی و طراحی سایت و … را دارند قرار گرفته باشد .
شما می توانید سفارش طراحی انواع سایت خود را از طریق شماره تلفن ۰۹۱۲۲۱۴۱۴۶۹ با ما در میان بگذارید. پیاده سازی طرح و ایده شما به بهترین شکل ممکن، مهم ترین هدف ما در شرکت لحظه وب است. همچنین می توانید برای دریافت مشاوره رایگان از متخصصین شرکت با ما در تماس باشید
نظرات ( بدون دیدگاه )
رضا جوادی
شنبه، 12 مهر 1397 ، در ساعت 4 بعد ظهر پاسخلورم ایپسوم متن ساختگی با تولید سادگی نامفهوم از صنعت چاپ و با استفاده از طراحان گرافیک است.
رضا جوادی
شنبه، 12 مهر 1397 ، در ساعت 4 بعد ظهر پاسخلورم ایپسوم متن ساختگی با تولید سادگی نامفهوم از صنعت چاپ و با استفاده از طراحان گرافیک است.
رضا جوادی
شنبه، 12 مهر 1397 ، در ساعت 8 بعد ظهر پاسخلورم ایپسوم متن ساختگی با تولید سادگی نامفهوم از صنعت چاپ و با استفاده از طراحان گرافیک است.