Керування файлами Robots.txt і файлами Sitemap

Фон
Передумови
2. Аналіз веб-сайту
Керування файлом Robots.txt
Додавання правил Disallow і Allow
Керування файлами мапи сайтів
Додавання URL-адрес до карти сайту
Резюме

від Руслан Якушев

Інструментарій для пошукової оптимізації IIS включає функцію виключення роботів , яку можна використовувати для керування вмістом файлу Robots.txt для вашого веб-сайту, і включає в себе функції Sitemap і Sitemap Index, які можна використовувати для керування картами сайтів вашого сайту. У цьому посібнику пояснюється, як і чому використовувати ці функції.

Фон

Сканери пошукової системи витратять на ваш веб-сайт обмежений час і ресурси. Тому дуже важливо зробити наступне:

Запобігайте індексації вмісту сканерів, які не є важливими, або які не повинні відображатися на сторінках результатів пошуку.
Наведіть сканерів на вміст, який ви вважаєте найважливішим для індексування.

Для досягнення цих завдань зазвичай використовуються два протоколи: Протокол виключення роботів і Протокол Sitemaps .

Протокол виключення роботів використовується для розпізнавання сканерів пошукових систем, які URL-адреси не повинні запитувати при скануванні веб-сайту. Інструкції виключення розміщуються в текстовому файлі з ім'ям Robots.txt, який знаходиться в корені веб-сайту. Більшість сканерів пошукових систем зазвичай шукають цей файл і дотримуються вказівок у ньому.

Протокол Sitemaps використовується для інформування сканерів пошукових систем про URL-адреси, доступні для сканування на вашому веб-сайті. Крім того, файли Sitemap використовуються для надання додаткових метаданих про URL-адреси сайту, таких як час останнього зміни, частота модифікації, відносний пріоритет і т.д. Пошукові системи можуть використовувати ці метадані під час індексування вашого веб-сайту.

Передумови

Щоб завершити це покрокове керівництво, вам знадобиться веб-сайт, розміщений на веб-сайті IIS 7 або вище, або веб-додаток, яким ви керуєте. Якщо у вас немає такої, ви можете встановити її з Галерея веб-додатків Microsoft . Для цілей цього посібника ми будемо використовувати популярну програму для блогу DasBlog .

2. Аналіз веб-сайту

Якщо у вас є веб-сайт або веб-додаток, ви можете проаналізувати його, щоб зрозуміти, як типова пошукова система буде сканувати його вміст. Для цього виконайте дії, описані в статтях " Використання аналізу сайту для сканування веб-сайту "і" Використання звітів про аналіз сайту ". Коли ви робите аналіз, ви, мабуть, помітите, що у вас є певні URL-адреси, які доступні для пошукових систем для сканування, але немає реальної користі від їх сканування або індексування. Наприклад, сторінки входу або сторінки ресурсів URL-адреси, подібні до них, повинні бути приховані від пошукових систем, додавши їх до файлу Robots.txt.

Керування файлом Robots.txt

Ви можете скористатися функцією виключення роботів у IIS SEO Toolkit, щоб створити файл Robots.txt, який повідомляє пошуковим системам, які частини веб-сайту не повинні бути скановані або індексовані. Наступні кроки описують, як використовувати цей інструмент.

Відкрийте консоль керування IIS, ввівши INETMGR у меню Пуск.
Перейдіть до вашого веб-сайту за допомогою дерева з лівого боку (наприклад, веб-сайт за промовчанням).
Натисніть на іконку пошукової оптимізації в розділі Керування:
На головній сторінці SEO натисніть посилання " Додати нове правило заборони " у розділі " Виключення роботів ".

Додавання правил Disallow і Allow

Діалогове вікно "Додати заборонені правила" відкриється автоматично:

Протокол виключення роботів використовує директиви "Дозволити" і "Заборонити", щоб інформувати пошукові системи про шляхи URL, які можна сканувати, і про те, які не можуть. Ці директиви можуть бути вказані для всіх пошукових систем або для певних агентів користувача, визначених HTTP заголовком користувача-агента. У діалоговому вікні "Додати заборонені правила" ви можете вказати, який сканер пошукової системи застосовується до директиви, ввівши користувальницький агент сканера в поле "Робот (агент користувача)".

Для вибору URL-адрес, які повинні бути заборонені, використовується деревоподібний перегляд URL-шляху. Ви можете вибрати один з декількох варіантів під час вибору шляхів URL, використовуючи випадаючий список "Структура URL-адрес":

Physical Location (Фізичне розташування) - ви можете обрати шляхи від розміщення фізичної файлової системи вашого веб-сайту.
З аналізу сайту (назва аналізу) - ви можете обрати шляхи від віртуальної структури URL, яка була виявлена під час аналізу сайту за допомогою інструменту аналізу сайту IIS.
<Запуск нового аналізу сайту ...> - ви можете запустити новий аналіз сайту, щоб отримати віртуальну структуру URL-адреси для вашого веб-сайту, а потім виберіть шляхи URL звідти.

Після завершення кроків, описаних у розділі попередніх умов, доступний аналіз сайту. Виберіть аналіз у випадаючому списку, а потім перевірте URL-адреси, які потрібно приховати від пошукових систем, використовуючи прапорці на дереві "URL Paths":

Після вибору всіх каталогів і файлів, які потрібно заборонити, натисніть кнопку ОК. Ви побачите нові заборонені записи в головному вікні функції:

Крім того, файл Robots.txt для сайту буде оновлений (або створений, якщо він не існує). Його вміст виглядатиме так:

User-agent: * Disallow: /EditConfig.aspx Disallow: /EditService.asmx/ Disallow: / images / Disallow: /Login.aspx Disallow: / scripts / Disallow: /SyndicationService.asmx/

Щоб дізнатися, як працює файл Robots.txt, поверніться до функції аналізу сайту та повторно запустіть аналіз для сайту. На сторінці "Зведення звітів" у розділі " Посилання " виберіть " Посилання заблоковані" . У цьому звіті відображатимуться всі посилання, які не були скановані, оскільки вони були заборонені файлом Robots.txt, який ви тільки що створили.

Керування файлами мапи сайтів

Ви можете скористатися функцією Sitemaps і Sitemap Indexes Toolkit IIS SEO для авторизації Sitemap на Вашому веб-сайті, щоб інформувати пошукові системи про сторінки, які слід сканувати та індексувати. Для цього виконайте такі дії:

Відкрийте диспетчер IIS, ввівши INETMGR у меню Пуск .
Перейдіть до свого веб-сайту за допомогою дерева зліва.
Натисніть на іконку пошукової оптимізації в розділі Керування:
На головній сторінці SEO натисніть посилання " Створити нову мапу сайту " у розділі " Мапи сайтів" та "Індекси мапи сайту ".
Автоматично відкриється діалогове вікно Додати мапу сайту .
Введіть ім'я файлу sitemap і натисніть кнопку OK . З'явиться діалогове вікно Додати URL-адреси .

Додавання URL-адрес до карти сайту

Діалогове вікно Додати URL-адреси виглядає так:

Файл Sitemap в основному є простим XML-файлом, який містить URL-адреси, а також деякі метадані, такі як частота змін, дата останньої зміни та відносна пріоритет. Використовуйте діалогове вікно Додати URL-адреси, щоб додати нові записи URL до файлу XML Sitemap. Кожна URL-адреса в мапі сайту повинна бути у повному форматі URI (тобто вона повинна містити префікс протоколу та доменне ім'я). Отже, перше, що потрібно вказати, це домен, який буде використовуватися для URL-адрес, які ви збираєтеся додати до карти сайту.

Для вибору URL-адрес, які слід додати до мапи сайту для індексації, використовується деревоподібний перегляд URL-шляху. Ви можете вибрати один з декількох варіантів за допомогою спадного списку "Структура URL-адрес":

Фізичне розташування - ви можете вибрати URL-адреси з фізичного розташування файлової системи вашого веб-сайту.
З аналізу сайту (назва аналізу) - ви можете вибрати URL-адреси з віртуальної структури URL, яка була виявлена під час аналізу сайту за допомогою інструмента аналізу сайту.
<Запуск нового аналізу сайту ...> - ви можете запустити новий аналіз сайту, щоб отримати віртуальну структуру URL для вашого веб-сайту, а потім виберіть шляхи URL, які ви хочете додати для індексування.

Після того, як ви виконаєте кроки в розділі попередніх умов, ви отримаєте доступ до аналізу сайту. Виберіть його з розкривного списку, а потім перевірте URL-адреси, які потрібно додати до карти сайту.

У разі необхідності змініть параметри " Змінити частоту" , " Дата останньої модифікації" та " Пріоритет" , а потім натисніть " OK", щоб додати URL-адреси до карти сайту. Файл sitemap.xml буде оновлено (або створено, якщо він не існує), а його вміст виглядатиме так:

<urlset> <url> <loc> http: //myblog/2009/03/11/CongratulationsYouveInstalledDasBlogWithWebDeploy.aspx </loc> <lastmod> 2009-06-03T16: 05: 02 </lastmod> <changefreq> щотижня </ changefreq> <пріоритет> 0,5 </priority> </url> <url> <loc> http: //myblog/2009/06/02/ASPNETAndURLRewriting.aspx </loc> <lastmod> 2009-06-03T16: 05: 01 </lastmod> <changefreq> щотижня </changefreq> <пріоритет> 0,5 </priority> </url> </urlset>

Тепер, коли ви створили карту сайту, вам потрібно дозволити пошуковим системам дізнатися, де вона знаходиться, щоб вони могли почати використовувати її. Найпростіший спосіб зробити це - додати URL-адресу мапи сайту до файлу Robots.txt.

У функції Sitemap і Sitemap Indexes виберіть мапу сайту, яку ви щойно створили, а потім натисніть кнопку " Додати до Robots.txt" на панелі " Дії" :

Файл Robots.txt виглядатиме так:

Агент користувача: * Disallow: /EditService.asmx/ Disallow: / images / Disallow: / scripts / Disallow: /SyndicationService.asmx/ Disallow: /EditConfig.aspx Disallow: /Login.aspx Карта сайту: http: // myblog / sitemap .xml

Окрім додавання місця розташування файлу sitemap до файлу Robots.txt, рекомендується подати URL-адресу місця розташування сайту до основних пошукових систем. Це дозволить вам отримати корисний статус і статистику про ваш веб-сайт з інструментів веб-майстрів пошукової системи.

Резюме

У цьому посібнику ви дізналися, як використовувати функції виключення роботів і файли Sitemap і Sitemap індексів Інструментів IIS Search Engine Optimization для керування файлами Robots.txt і файлів sitemap на веб-сайті. Інструментарій пошукової оптимізації IIS надає інтегрований набір інструментів, які працюють разом, щоб допомогти вам створити та перевірити правильність файлів Robots.txt та файлів sitemap, перш ніж пошукові системи почнуть використовувати їх.