- Невелика ремарка
- Чим взагалі можна закрити сторінки від індексації пошуковими системами?
- недоліки robots.txt
- Meta robots - теж не ідеал
- Тема X-Robots-Tag - альтернатива перелопачуванні коду сторінок
- У чому мінуси?
Отримую багато запитань до посаді про алгоритм Google Fred . Головним чином - про те, як технічно реалізувати закриття недостатньо якісних сторінок.
Невелика ремарка
Взагалі-то найправильніший питання - чи не «як закрити", а "як зрозуміти, які сторінки гідні, а які ні».
Я вже починаю звикати до того, що з будь-якого мого дослідження намагаються зробити просту інструкцію на всі випадки життя ( ще приклад ).
Нагрянув Фред? Ну, закриємо від Гугла сторінки, які не дають трафіку, як Трудов пише і всього-то делов.
Про всяк випадок відповідально заявляю: я такого нікому не радив. Навпаки, завжди потрібно підходити до проблеми акуратно, щоб її лікуванням не наробити ще більших неприємностей. Про правильній тактиці боротьби з Fred-му теж як-небудь напишу. Але сьогодні у нас вже майже П'ятниця, тому розберемо питання простіше.
Чим взагалі можна закрити сторінки від індексації пошуковими системами?
Традиційно використовуються або robots.txt, або мета-тег noindex. За детальною матчастиною відправляю до довідки пошукових систем:
https://yandex.ru/support/webmaster/recommendations/indexing.xml
https://support.google.com/webmasters/topic/4598466
Нас же цікавить один часто ігнорований нюанс. Як мінімум для Google позначка-тег і директива в robots.txt нерівнозначні. Robots.txt - це всього лише рекомендація, обов'язкова до виконання.
недоліки robots.txt
Ось цитата з офіційного керівництва:
Змінюючи файл robots.txt, не забувайте про пов'язані з цим методом ризики. Іноді для заборони індексування певних URL краще використовувати інші методи.
(...)
Googlebot безпосередньо не індексувати вміст, зазначений у файлі robots.txt, проте зможе знайти ці сторінки по посиланнях з інших сайтів. Таким чином, URL, а також інші загальнодоступні відомості, наприклад текст посилань на сайт, можуть з'явитися в результатах пошуку Google. Щоб повністю виключити появу URL в результатах пошуку Google, використовуйте інші способи: парольний захист файлів на сервері або метатеги з директивами по індексуванню.
Robots.txt поганий ще й тим, що в ньому не можна вказати правило, аналогічне «noindex, follow» (не додавати в пошукову базу документ, але переходити за посиланнями), що є, наприклад, непоганим універсальним рішенням для сторінок пагінацію.
Meta robots - теж не ідеал
Взагалі-то meta name robots - відмінне рішення. Недолік тільки один. Іноді, на проектах з кривим движком або ледачим програмістом, домогтися установки meta-тегу на жалюгідній сотні документів не так-то просто. Що робити, якщо заборона потрібно поставити ось прямо зараз (а краще - вчора)?
Тема X-Robots-Tag - альтернатива перелопачуванні коду сторінок
Є ще один спосіб передати пошуковим системам інформацію, аналогічну тій, що міститься в мета-теге robots. Це заголовок сервера X-Robots-Tag. З ним взагалі кумедна історія. Чомусь вважається, що вміння працювати з X-Robots-Tag - страшні містичні знання, доступні тільки супер-сеошників. В той же час, опис заголовка спокійно лежить все в тій же довідки Google.
Та й взагалі, нічого складного в X-Robots-Tag немає. Єдине ускладнення - в силу малої популярності, для управління їм практично немає готових інструментів. І даремно. Адже X-Robots-Tag об'єднує гідності robots.txt і мета-тега. Він універсальний, гнучкий і управляти їм можна без залучення програміста (дотримуючись, звичайно ж, обережність).
Вчора я трохи покопався в документації .htaccess і спорудив сервіс, який дозволяє генерувати правила по установці X-Robots-Tag відразу для безлічі сторінок.
Інструмент отримати за адресою: https://bez-bubna.com/free/htaccess.php (Безкоштовно, без реєстрації).
На вхід подається список url:
Після натискання кнопочки отримуємо це:
Нам залишається скопіювати першу частину в кінець .htaccess, вибрати один з варіантів другої частини (або написати свій) і вставити в той же файл. Потім обов'язково перевіряємо, чи все гаразд працює, не поламався чи сайт від конфлікту директив і встановився чи заголовок на потрібні сторінки. Масово це можна зробити за допомогою Screaming Frog (розділ Directives).
Ну а перевірити конкретний url можна будь-яким детектором заголовків сервера, хоч вебмайстрів Яндекса.
У чому мінуси?
Якщо запхати в .htaccess дуже багато сторінок, це (теоретично) може позначитися на швидкості роботи сервера. Я протестував сайт на 3500 url в .htacess і не помітив зниження швидкості.
Перший запуск:
Другий (з набряклим .htacсess):
Різниці практично немає. Деякі показники у другому випадку навіть трохи краще (думаю, це похибка вимірювань). Тобто як мінімум до 3500 можна не побоюватися проблем зі швидкістю.
Також незрозуміла ситуація з підтримкою X-Robots-Tag Яндексом. У довідці заголовок не згадано. Є порівняно свіжий офіційний коментар в клубі Яндекса :
Нібито має працювати, але при спробі видалити url, який я 5 хвилин назад перевірив на відповідь сервера в вебмайстрів, отримую:
Вивчу це питання додатково.
У будь-якому випадку, для Google спосіб повинен працювати. До речі є думка, що заборона за допомогою X-Robots-Tag ще й допомагає економити краулінговий бюджет (адже роботу не треба завантажувати сторінку, щоб дістатися до мета-інформації). Вдалого використання!
Нагрянув Фред?Чим взагалі можна закрити сторінки від індексації пошуковими системами?
Що робити, якщо заборона потрібно поставити ось прямо зараз (а краще - вчора)?
У чому мінуси?