دستورالعمل های مختلط: یادآوری اینکه پرونده های robots.txt توسط Subdomain و پروتکل اداره می شوند ، از جمله www / non-www و http / https [Case Study]

thumbnail

من چندین سال است که در طی سالهای متمادی به یک موقعیت جالب robots.txt پرداخته ام که می تواند فهمید که صاحبان سایت مشکل ندارند. بعد از جستجوی مشکل و بحث در مورد چگونگی حل مسئله با مشتری ، فهمیدم بسیاری از افراد حتی نمی دانند که اصلاً ممکن است این اتفاق بیفتد. و از آنجا که پرونده robots.txt یک سایت را شامل می شود ، به طور بالقوه می تواند تأثیر بزرگی بر سئو داشته باشد.

من به پرونده های robots.txt مراجعه می کنم که توسط subdomain و پروتکل اداره می شوند. به عبارت دیگر ، یک سایت می تواند چندین فایل robots.txt را در همان زمان مستقر در www و غیر www یا با پروتکل در https www و http www اجرا کند. و از آنجا که Google با هریک از این موارد جداگانه اداره می شود ، می توانید دستورالعمل های بسیار متفاوتی راجع به نحوه خزیدن سایت (یا خزیدن) سایت ارسال کنید.

در این پست ، من دو نمونه از سایتهای واقع در دنیای واقعی را پوشش می دهم ، مستندات robots.txt گوگل را پوشش خواهم داد ، نحوه کشف این اتفاق را توضیح می دهم ، و بر اساس کمک به مشتریان ، چندین نکته را ارائه می دهم. با این وضعیت

بیایید خزنده شویم ، منظورم حرکت است. 🙂

Robots.txt توسط زیر دامنه و پروتکل

من فقط در بالا ذکر کردم که گوگل پرونده های robots.txt را با Subdomain و پروتکل اداره می کند. به عنوان مثال ، یک سایت می تواند دارای یک فایل robots.txt باشد که روی نسخه غیر www قرار دارد و یک پرونده کاملاً متفاوت که روی نسخه www نشسته است. من دیده ام که این اتفاق چندین بار در طی سالها در حالی که به مشتریان کمک می کند اتفاق افتاده است و اخیراً دوباره آنرا دوباره پیدا کردم.

فراتر از www و غیر www ، یک سایت می تواند یک پرونده robots.txt که در نسخه https یک زیر دامنه و سپس در نسخه http آن زیر دامنه قرار دارد ، داشته باشد. بنابراین ، مشابه آنچه در بالا توضیح دادم ، می توانید چندین فایل robots.txt با دستورالعمل های مختلف بر اساس پروتکل وجود داشته باشد.

اسناد Google به روشنی نحوه دستیابی به پرونده های robots.txt را توضیح می دهد و من توصیه می کنم آن سند را بخوانید. در اینجا چند مثال در مورد نحوه استفاده از دستورالعمل robots.txt آورده شده است:

این امر بدیهی است که می تواند مشکلاتی ایجاد کند زیرا ممکن است Googlebot پرونده های مختلف robots.txt را برای یک سایت واکشی کند و هر نسخه از سایت را به روش های مختلف خزنده کند. Googlebot می تواند برخی کارهای جالب را به پایان برساند در حالی که صاحبان سایت نادرست معتقدند که این دستورالعمل را از طریق پرونده robots.txt خود دنبال می کند ، هنگامی که این برنامه در طی خزیدن دیگر به دستورالعمل های دیگری نیز می رود.

من دو مورد را در اینجا مشاهده خواهم کرد که من به این وضعیت رسیدم.

مطالعه موردی شماره 1: پرونده های مختلف robots.txt با بخشنامه های متناقض در وب سایت های www و غیر www

هنگام انجام یک تحلیل و ممیزی خزنده اخیراً در یک سایت ناشر ، متوجه شدم که برخی از صفحات که توسط robots.txt مسدود شده اند ، واقعاً خزنده و فهرست بندی می شوند. می دانم که Google 100٪ از دستورالعمل robots.txt برای خزیدن پیروی می کند ، بنابراین این به وضوح یک پرچم قرمز بود.

و برای روشن شدن ، من به URL هایی که به صورت عادی خزیده شده و ایندکس می شوند ، اشاره می کنم ، حتی اگر دستورالعمل robots.txt باید خزنده را مجاز نباشد. Google هنوز هم می تواند نشانی های اینترنتی مسدود شده توسط robots.txt را بدون اینکه آنها را خز کند واقعاً فهرست کند. من به زودی اطلاعات بیشتری راجع به آن وضعیت خواهم دید.

هنگام چک کردن پرونده robots.txt به صورت دستی برای سایت ، یک سری دستورالعمل را در نسخه غیر www دیدم که محدود بود. سپس من شروع به بررسی دستی نسخه های دیگر سایت (از طریق ساب دامنه و پروتکل) کردم تا ببینم آیا مشکلی پیش آمده است.

و در آنجا بود ، یک پرونده متفاوت robots.txt روی نسخه www سایت نشسته بود. و همانطور که می توانید حدس بزنید ، این دستورالعمل های مختلفی نسبت به نسخه غیر www دارد.

نسخه غیر www از پرونده robots.txt:

نسخه www پرونده robots.txt:

مطالب مرتبط  پشتیبانی مرتب از فیلتر بیان که به گزارش عملکرد کنسول جستجوی Google می آید

سایت به درستی 301 هدایت نسخه www فایل robots.txt به نسخه غیر www را هدایت نکرد. بنابراین ، Google توانست به هر دو پرونده robots.txt دسترسی پیدا کند و دو مجموعه دستورالعمل مختلف را برای خزیدن پیدا کند. باز هم ، من می دانم که بسیاری از دارندگان سایت اطلاع ندارند که این اتفاق می افتد.

یک یادداشت سریع در مورد صفحات مسدود شده توسط robots.txt که می توانند نمایه شوند

من قبلاً اشاره کردم که صفحات به درستی توسط robots.txt مسدود شده هنوز هم می توانند ایندکس شوند. آنها فقط خزنده نخواهند شد. Google بارها این موضوع را توضیح داده است و می توانید اطلاعات بیشتری در مورد چگونگی فهرست بندی URL های روبات شده در اسناد خود درباره robots.txt کسب کنید. من می دانم که برای بسیاری از دارندگان سایت موضوعی گیج کننده است ، اما قطعاً Google می تواند صفحات مجاز را مجاز کند. به عنوان مثال ، گوگل می تواند این کار را هنگام مشاهده لینک های ورودی به صفحه های مسدود شده انجام دهد.

هنگامی که این اتفاق می افتد ، URL ها را فهرست بندی می کند و پیامی را در SERP ها ارائه می دهد که می گوید: “هیچ اطلاعاتی برای این صفحه نمی تواند فراهم شود” باز هم ، این چیزی نیست که من در این پست به آن اشاره می کنم. من به URL هایی که بر اساس دیدن گوگل مشاهده نسخه های مختلف یک پرونده robots.txt در حال خزیدن و ایندکس شدن هستند ، اشاره می کنم. در اینجا تصویری از اسناد گوگل درباره نمایه سازی URL های روبات شده ارائه شده است.

در مورد کنسول جستجوی Google (GSC) و پرونده های robots.txt چه می گویم؟

در یک منطقه دور از کنسول جستجوی Google ، جایی که عناصر جست و جو در هوا گرد و غبار می شوند ، ابزاری عالی برای صاحبان سایت در هنگام اشکالزدایی در پرونده های robots.txt وجود دارد. این تست به نام robots.txt تستر و یکی از ابزارهای مورد علاقه من در GSC است. متأسفانه ، پیدا کردن بسیاری از دارندگان سایت دشوار است. از GSC جدید هیچ پیوندی به آن وجود ندارد ، و حتی بخش گزارش های میراث مربوط به GSC به آن پیوند ندارد.

هنگام استفاده از آن ابزار ، می توانید پرونده های robots.txt قبلی را که گوگل مشاهده کرده است ، مشاهده کنید. و همانطور که می توانید حدس بزنید ، من هر دو پرونده robots.txt را در آنجا دیدم. بنابراین بله ، گوگل رسماً پرونده دوم robots.txt را مشاهده کرد.

تستر robots.txt در GSC که یک نسخه را نشان می دهد:

تستر robots.txt در GSC که نسخه دوم را نشان می دهد:

نیازی به گفتن نیست ، من به سرعت با مشتری ، اطلاعات ، تصاویر و غیره را به مشتری ارسال کردم و به آنها گفتم که پرونده robots.txt دوم را حذف کنید و 301 نسخه www را به نسخه غیر www هدایت کنید. حال هنگامی که گوگل از سایت بازدید می کند و پرونده robots.txt را بررسی می کند ، به طور مداوم مجموعه صحیح دستورالعمل ها را مشاهده می کند.

اما به یاد داشته باشید ، اکنون برخی URL ها به طور نادرست ایندکس شده اند. بنابراین ، مشتری من این URL ها را برای خزیدن باز می کند ، اما اطمینان می دهد که پرونده ها از طریق برچسب روبات های متا noindexed نمی شوند. هنگامی که می بینیم کل در GSC سقوط کرده است ، ما دستورالعمل صحیح مجاز ممنوعیت دوباره مسدود کردن آن منطقه را نیز شامل خواهیم شد.

مطالعه موردی شماره 2: پرونده های مختلف robots.txt برای http و https و یک پتو مجاز نیست

به عنوان مثال دوم سریع ، یک صاحب سایت چند سال پیش با من تماس گرفت که دچار افت ترافیک جستجوی ارگانیک شده بود و هیچ تصوری از این موضوع نداشت. بعد از حفر کردن ، تصمیم گرفتم نسخه های مختلف سایت را با پروتکل بررسی کنم (از جمله پرونده های robots.txt برای هر نسخه).

هنگام تلاش برای بررسی نسخه https از پرونده robots.txt ، ابتدا باید از طریق یک اخطار امنیتی در Chrome کلیک کنم. و هنگامی که من این کار را کردم ، در تمام جلالش وجود داشت … یک پرونده robots.txt دوم که مانع از خزیدن کل سایت شد. در نسخه https از پرونده robots.txt یک پتو مجاز نبود. به عنوان مثال ، استفاده از Disallow: /

توجه داشته باشید ، تعدادی از موارد دیگر در مورد این سایت وجود دارد که فراتر از این مسئله است ، اما داشتن چندین فایل robots.txt و یکی با پتو غیرمجاز ، بهینه نبود.

مطالب مرتبط  چرا سئو در حال حاضر؟

پرونده https robots.txt (در پشت یک اخطار امنیتی در Chrome پنهان است):

مشکلات بهداشتی سایت در GSC برای ویژگی https نشان داده شده است:

با کشیدن نسخه https ، مسدود شده است:

مشابه پرونده اول ، صاحب سایت به سرعت برای اصلاح مشکل حرکت کرد (که براساس CMS آنها هیچ شاهکار آسانی نبود). اما آنها سرانجام وضعیت robots.txt خود را به ترتیب مرتب کردند. این یک مثال عالی دیگر برای نحوه برخورد گوگل با پرونده های robots.txt و خطر داشتن چندین فایل توسط زیر دامنه یا پروتکل است.

ابزار تجارت: نحوه شناسایی چندین پرونده robots.txt توسط subdomain یا پروتکل

برای حفر این وضعیت ، ابزارهای مختلفی وجود دارد که می توانید از آنها به غیر از چک کردن دستی پرونده های robots.txt در هر دامنه و پروتکل استفاده کنید. این ابزار همچنین می تواند به تاریخچه پرونده های robots.txt که در یک سایت مشاهده می شوند ، کمک کند.

گوگل robots.txt تستر

من قبلاً به robots.txt Tester اشاره کردم و این یک ابزار به طور مستقیم از Google است. این امکان را به شما می دهد تا پرونده فعلی robots.txt و نسخه های قبلی را که گوگل انتخاب کرده است مشاهده کنید. همچنین به عنوان یک جعبه ماسه ای عمل می کند که می توانید دستورالعمل های جدید را آزمایش کنید. این یک ابزار عالی است ، حتی اگر Google بنا به دلایلی گوگل آن را در گوشه ای دور از GSC قرار داده است.

دستگاه برگشت راه

بله ، بایگانی اینترنت می تواند کمک زیادی به این وضعیت کند. من این مورد را در ستون قبلی در موتور جستجوگر زمین پوشانده ام ، اما دستگاه برگشت راه فقط برای بررسی صفحات وب استاندارد نیست. همچنین می توانید از آن برای مرور پرونده های robots.txt به مرور زمان استفاده کنید. این یک راه عالی برای ردیابی نسخه های قبلی robots.txt است.

رفع: 301 تغییر مسیر برای نجات

برای جلوگیری از بروز مشکلات robots.txt توسط subdomain یا پروتکل ، من اطمینان حاصل می کنم که شما 301 فایل robots.txt خود را به نسخه مورد نظر هدایت کنید. به عنوان مثال ، اگر سایت شما با www کار می کند ، robots.txt غیر www را به نسخه www هدایت کنید. و باید قبلاً http را به https هدایت کنید ، اما فقط مطمئن شوید که به پروتکل و نسخه فرعی دامنه مورد نظر هدایت می شوید. به عنوان مثال ، اگر نسخه مورد نظر سایت شماست ، به https www تغییر مسیر دهید. و مطمئناً مطمئن شوید همه آدرسهای اینترنتی به درستی در سایت به نسخه مورد نظر هدایت می شوند.

برای سایر زیر دامنه ها ، ممکن است پرونده های جداگانه robots.txt را انتخاب کنید ، که کاملاً خوب است. به عنوان مثال ، شما ممکن است یک مجمع واقع در subdomain forums.domain.com داشته باشید و این دستورالعمل ها ممکن است با www متفاوت باشد. این چیزی نیست که من در این پست به آن اشاره می کنم. من برای وب سایت اصلی شما به www در مقابل غیر www و http در مقابل https مراجعه می کنم. باز هم ، سایر زیر دامنه ها می توانند فایلهای robots.txt مخصوص به خود را داشته باشند.

خلاصه: برای پرونده های robots.txt ، زیر دامنه و پروتکل را تماشا کنید

از آنجایی که کنترل خزیدن را کنترل می کند ، درک این که Google چگونه پرونده های robots.txt را مدیریت می کند ، بسیار مهم است. متأسفانه ، برخی سایتها می توانند چندین فایل robots.txt را با دستورالعمل های مختلف توسط Subdomain یا پروتکل ارائه دهند. و بسته به اینکه چگونه گوگل سایت را خزنده می کند ، ممکن است یکی یا دیگری را پیدا کند که با خزیدن و ایندکس کردن می تواند به موارد جالبی منجر شود. من در این پست از دستورالعمل ها ، کار در نظر گرفته شده پیروی می کنم تا درک کنید که سایت شما در حال حاضر چگونه کار می کند. و پس از آن مطمئن شوید که برای روشن شدن نحوه خزیدن سایت خود ، واضح ترین راهنمایی های ممکن را به Googlebot ارسال می کنید.

The post Directives: یک یادآوری است که پرونده های robots.txt توسط Subdomain و پروتکل ، از جمله www / non-www و http / https اداره می شوند. [Case Study] برای اولین بار در موتور موتور جستجو ظاهر شد.

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

Back To Top