Як екстрено заборонити індексацію сторінок, якщо не можна міняти meta robots (на кожному двигуні!)

Невелика ремарка
Чим взагалі можна закрити сторінки від індексації пошуковими системами?
недоліки robots.txt
Meta robots - теж не ідеал
Тема X-Robots-Tag - альтернатива перелопачуванні коду сторінок
У чому мінуси?

Отримую багато запитань до посаді про алгоритм Google Fred . Головним чином - про те, як технічно реалізувати закриття недостатньо якісних сторінок.

Невелика ремарка

Взагалі-то найправильніший питання - чи не «як закрити", а "як зрозуміти, які сторінки гідні, а які ні».

Я вже починаю звикати до того, що з будь-якого мого дослідження намагаються зробити просту інструкцію на всі випадки життя ( ще приклад ).

Нагрянув Фред? Ну, закриємо від Гугла сторінки, які не дають трафіку, як Трудов пише і всього-то делов.

Про всяк випадок відповідально заявляю: я такого нікому не радив. Навпаки, завжди потрібно підходити до проблеми акуратно, щоб її лікуванням не наробити ще більших неприємностей. Про правильній тактиці боротьби з Fred-му теж як-небудь напишу. Але сьогодні у нас вже майже П'ятниця, тому розберемо питання простіше.

Чим взагалі можна закрити сторінки від індексації пошуковими системами?

Традиційно використовуються або robots.txt, або мета-тег noindex. За детальною матчастиною відправляю до довідки пошукових систем:

https://yandex.ru/support/webmaster/recommendations/indexing.xml

https://support.google.com/webmasters/topic/4598466

Нас же цікавить один часто ігнорований нюанс. Як мінімум для Google позначка-тег і директива в robots.txt нерівнозначні. Robots.txt - це всього лише рекомендація, обов'язкова до виконання.

недоліки robots.txt

Ось цитата з офіційного керівництва:

Змінюючи файл robots.txt, не забувайте про пов'язані з цим методом ризики. Іноді для заборони індексування певних URL краще використовувати інші методи.
(...)
Googlebot безпосередньо не індексувати вміст, зазначений у файлі robots.txt, проте зможе знайти ці сторінки по посиланнях з інших сайтів. Таким чином, URL, а також інші загальнодоступні відомості, наприклад текст посилань на сайт, можуть з'явитися в результатах пошуку Google. Щоб повністю виключити появу URL в результатах пошуку Google, використовуйте інші способи: парольний захист файлів на сервері або метатеги з директивами по індексуванню.

Robots.txt поганий ще й тим, що в ньому не можна вказати правило, аналогічне «noindex, follow» (не додавати в пошукову базу документ, але переходити за посиланнями), що є, наприклад, непоганим універсальним рішенням для сторінок пагінацію.

Meta robots - теж не ідеал

Взагалі-то meta name robots - відмінне рішення. Недолік тільки один. Іноді, на проектах з кривим движком або ледачим програмістом, домогтися установки meta-тегу на жалюгідній сотні документів не так-то просто. Що робити, якщо заборона потрібно поставити ось прямо зараз (а краще - вчора)?

Тема X-Robots-Tag - альтернатива перелопачуванні коду сторінок

Є ще один спосіб передати пошуковим системам інформацію, аналогічну тій, що міститься в мета-теге robots. Це заголовок сервера X-Robots-Tag. З ним взагалі кумедна історія. Чомусь вважається, що вміння працювати з X-Robots-Tag - страшні містичні знання, доступні тільки супер-сеошників. В той же час, опис заголовка спокійно лежить все в тій же довідки Google.

Та й взагалі, нічого складного в X-Robots-Tag немає. Єдине ускладнення - в силу малої популярності, для управління їм практично немає готових інструментів. І даремно. Адже X-Robots-Tag об'єднує гідності robots.txt і мета-тега. Він універсальний, гнучкий і управляти їм можна без залучення програміста (дотримуючись, звичайно ж, обережність).

Вчора я трохи покопався в документації .htaccess і спорудив сервіс, який дозволяє генерувати правила по установці X-Robots-Tag відразу для безлічі сторінок.

Інструмент отримати за адресою: https://bez-bubna.com/free/htaccess.php (Безкоштовно, без реєстрації).

На вхід подається список url:

Після натискання кнопочки отримуємо це:

Нам залишається скопіювати першу частину в кінець .htaccess, вибрати один з варіантів другої частини (або написати свій) і вставити в той же файл. Потім обов'язково перевіряємо, чи все гаразд працює, не поламався чи сайт від конфлікту директив і встановився чи заголовок на потрібні сторінки. Масово це можна зробити за допомогою Screaming Frog (розділ Directives).

Ну а перевірити конкретний url можна будь-яким детектором заголовків сервера, хоч вебмайстрів Яндекса.

У чому мінуси?

Якщо запхати в .htaccess дуже багато сторінок, це (теоретично) може позначитися на швидкості роботи сервера. Я протестував сайт на 3500 url в .htacess і не помітив зниження швидкості.

Перший запуск:

Другий (з набряклим .htacсess):

htacсess):

Різниці практично немає. Деякі показники у другому випадку навіть трохи краще (думаю, це похибка вимірювань). Тобто як мінімум до 3500 можна не побоюватися проблем зі швидкістю.

Також незрозуміла ситуація з підтримкою X-Robots-Tag Яндексом. У довідці заголовок не згадано. Є порівняно свіжий офіційний коментар в клубі Яндекса :

Нібито має працювати, але при спробі видалити url, який я 5 хвилин назад перевірив на відповідь сервера в вебмайстрів, отримую:

Вивчу це питання додатково.

У будь-якому випадку, для Google спосіб повинен працювати. До речі є думка, що заборона за допомогою X-Robots-Tag ще й допомагає економити краулінговий бюджет (адже роботу не треба завантажувати сторінку, щоб дістатися до мета-інформації). Вдалого використання!