جذب خزنده های گوگل با ایجاد فایل Robots.txt
اگر مقاله نحوه ساختن سایت مپ را مطالعه کرده باشید، میدانید که ساختار sitemap با اطلاعات درون robots.txt باید با هم هماهنگ باشند، در این صورت ربات های گوگل بودجه کرال (Crawl Budget) مربوط به وب سایت شما را به صفحاتی با اهمیتی بیشتر اختصاص میدهند. فایل robots.txt مانند سندی از دسترسی ها برای خزنده های گوگل میباشد. به تعریف گوگل، این فایل به خزنده های موتور جستجو میگوید سراغ چه آدرس هایی در وب سایت شما بروند. گوگل تأکید میکند که robots.txt راه حلی برای بلاک کردن ربات ها از ایندکس صفحاتی خاص نیست! و برای این کار باید از noindex کمک گرفت.مهمترین کاربرد این فایل جلوگیری از بار بیش از حد درخواست ها به روی وب سایت شما میباشد. برای آشنایی با ساختار و استفاده از آن با ما همراه باشید.
چرا صفحات را به عنوان noindex تعریف میکنیم؟
در هر وب سایتی تعدادی لینک پیدا میشوند که به عنوان تست استفاده شده یا دارای محتویاتی هستند که به بهینه سازی سئو در صفحات گوگل کمکی نمیکنند. ممکن است کاربران با مشاهده این صفحات از محتوای وب سایت شما دچار سردرگمی شوند یا حتی برای ربات های گوگل ( خزنده ها) خاصیت ضد سئو داشته باشد. واضح است که با روشی میبایست از ایندکس شدن این صفحات جلوگیری شود. بسیاری فکر میکنند که با قرار دادن این لینک ها در فایل robots.txt ، این صفحات از گوگل مخفی خواهند شد. اما این کافی نیست! اگر قصد دارید این چنین صفحات را از موتور جستجو دور نگه دارید راه حل آن اضافه کردن تگ noindex به این صفحات است. برای این منظور روش noindex کردن صفحات را مطالعه کنید.
کاربرد روباتس دات تکست در وب سایت چیست؟
همانطور که گفتیم مهمترین هدف از ایجاد فایل robots.txt ، مدیریت ترافیک بر روی وب سایت است. این فایل اولین چیزی است که خزنده های گوگل به سراغ آن خواهند رفت و سپس صفحات وب سایت را بررسی میکنند. البته میتوانید از این فایل برای جلوگیری از ایندکس شدن صفحات در ساب دایرکتوری ها ( زیر دامنه ) نیز استفاده کنید. به عنوان مثال اگر تعدادی از لینک های شما در ساب دایرکتوری /others باشد، برای جلوگیری از کرال شدن آنها، این آدرس را در دستور Disallow قرار دهید. در ادامه به دیگر دستورات در روباتس دات تکست میپردازیم.
محدودیت های فایل robots.txt برای موتور جستجو
این نکته را در نظر داشته باشید که گوگل محدودیت های خود را برای ایندکس کردن صفحات در نظر خواهد گرفت. به عنوان مثال اگر صفحاتی در وب سایت شما قرار گرفته باشند که از لحاظ محتوایی ضعیف بوده یا فقط شامل کد هایی باشند که برای خزنده ها قابل فهم نباشند، گوگل آنها را در دسته ی crawled but not indexed ( وارسی صورت گرفته اما ایندکس نشده ) قرار خواهد داد. توجه داشته باشید که صرفاً بلاک کردن لینک صفحات در این فایل از ایندکس آنها جلوگیری نخواهد کرد و اگر از صفحاتی دیگر به این صفحات لینک سازی صورت گرفته باشد، باز هم ربات ها به سراغشان خواهند رفت. همانطور که قبلاً به این موضوع پرداختیم باید این صفحات خاص را noindex کنید.
ساختار فایل robots.txt برای ایندکس صفحات در گوگل
فایل robots.txt از تعدادی rule یا قانون تشکیل شده است. این قانون ها بصورت گروهی در این فایل برای هر agent یا نماینده تعریف میشوند. برای آشنایی با انواع نماینده های گوگل این مقاله را مطالعه کنید. سه دستور کلی در این فایل استفاده میشوند که عبارت اند از User-agent ، Allow و Disallow . با دستور user agent میتوانید نماینده را مشخص کنید. دستور Allow برای اجازه دادن دسترسی به نماینده بر روی آدرس ها و Disallow برای محدود کردن دسترسی میباشد. علاوه بر قرار دادن لینک روبروی این دو دستور میتوانید فرمت های خاصی از محتوا مثل .gif و … را ( که شامل هر فایلی با این فرمت میشود) قرار دهید. از دیگر اطلاعات ثبت شده در robots.txt آدرس سایت مپ وب سایت میباشد.
robots.txt چطور برای خزنده های گوگل کار میکند؟
دستورات درون این فایل سه دسته اطلاعات را برای خزنده های گوگل یا نماینده ها به دست میدهند:
- دستور ها برای کدام نماینده ها باید اجرا شود
- نماینده ها به چه دایرکتوری هایی دسترسی دارند
- نماینده ها به چه دایرکتوری هایی دسترسی ندارند
خزنده های گوگل این دستورات را بررسی کرده و طبق سطح دسترسی تعیین شده شروع به crawling بر روی دامنه شما خواهند کرد.
فایل robots.txt را کجا باید قرار دهیم؟
محل قرارگیری robots.txt هم مانند فایل sitemap.xml درون پوشه public html بر روی سرور وب سایت میباشد. شما متیوانید با داشتن اطلاعات ورود به هاست خریداری شده خود به پنل مدیریت و این پوشه دسترسی داشته باشید. برای مشاهده و دسترسی به این فایل، کافیست عبارت /robots.txt را در ادامه آدرس وب سایت نوشته و وارد این آدرس شوید. در اینجا دقیقاً گروههای دسترسی که ساختهاید را مشاهده خواهید کرد. . شما متیوانید ساختار robots.txt وب سایتهای پر بازدید از جمله سایت مپ دیجی کالا را در ادامه بررسی کنید.
• سایت مپ فروشگاه دیجی کالا
• سایت مپ وب سایت ورزشی ورزش ۳
• سایت مپ خبرگذاری خبری خبر آنلاین
گوگل چطور ساختار robots.txt را میپذیرد؟
بهترین روش ارزیابی ساختار robots.txt در وب سایت شما، استفاده از ابزار ارزیابی robots.txt در گوگل سرچ کنسول میباشد. اگر خطای نوشتاری، دستورات اشتباه یا مورد اعتبار نبودن نماینده ها توسط این ابزار شناسایی شود، گوگل به شما نمایش خواهد داد. برای مطالعه راهنمای جامع گوگل سرچ کنسول به این لینک مراجعه کنید.
دیدگاهتان را بنویسید