Zarządzanie plikami Robots.txt i mapami witryn

tło
Wymagania wstępne
2. Analiza strony internetowej
Zarządzanie plikiem Robots.txt
Dodawanie reguł Disallow i Allow
Zarządzanie plikami map witryn
Dodawanie adresów URL do mapy witryny
streszczenie

przez Ruslan Yakushev

Zestaw narzędzi do optymalizacji wyszukiwarek IIS zawiera funkcję wykluczania robotów , której można używać do zarządzania zawartością pliku Robots.txt dla witryny sieci Web, a także funkcje map witryn i indeksów map witryn , których można używać do zarządzania mapami witryn. Ta instrukcja wyjaśnia, jak i dlaczego korzystać z tych funkcji.

tło

Przeszukiwacze wyszukiwarek spędzą ograniczony czas i zasoby na swojej stronie internetowej. Dlatego ważne jest, aby wykonać następujące czynności:

Zapobiegaj indeksowaniu przez roboty indeksujące treści, które nie są ważne lub które nie powinny być wyświetlane na stronach wyników wyszukiwania.
Skieruj roboty indeksujące na treść, którą uważasz za najważniejszą podczas indeksowania.

Istnieją dwa protokoły, które są powszechnie używane do realizacji tych zadań: Protokół wykluczania robotów i Protokół Sitemaps .

Protokół wykluczania robotów jest używany do informowania robotów indeksujących wyszukiwarki, których adresów URL NIE powinien żądać podczas indeksowania witryny sieci Web. Instrukcje wykluczeń są umieszczane w pliku tekstowym o nazwie Robots.txt, który znajduje się w katalogu głównym witryny sieci Web. Większość robotów wyszukiwarek zazwyczaj szuka tego pliku i postępuje zgodnie z instrukcjami w nim zawartymi.

Protokół Sitemaps służy do informowania robotów indeksujących wyszukiwarki o adresach URL dostępnych do indeksowania w witrynie sieci Web. Ponadto mapy witryn służą do dostarczania dodatkowych metadanych dotyczących adresów URL witryny, takich jak czas ostatniej modyfikacji, częstotliwość modyfikacji, względny priorytet itp. Wyszukiwarki mogą korzystać z tych metadanych podczas indeksowania witryny sieci Web.

Wymagania wstępne

Aby ukończyć ten przewodnik, będziesz potrzebować hostowanej witryny sieci Web IIS 7 lub nowszej lub aplikacji WWW, którą kontrolujesz. Jeśli go nie masz, możesz zainstalować go z Galeria aplikacji sieci Web firmy Microsoft . Na potrzeby tej instrukcji użyjemy popularnej aplikacji do blogowania DasBlog .

2. Analiza strony internetowej

Po utworzeniu witryny sieci Web lub aplikacji sieci Web możesz ją przeanalizować, aby zrozumieć, w jaki sposób typowa wyszukiwarka indeksuje jej zawartość. Aby to zrobić, wykonaj kroki opisane w artykułach ” Korzystanie z analizy witryny do indeksowania witryny sieci Web " i " Korzystanie z raportów analizy lokalizacji „. Podczas analizy prawdopodobnie zauważysz, że masz pewne adresy URL, które są dostępne dla wyszukiwarek do indeksowania, ale nie ma rzeczywistych korzyści z ich przeszukiwania lub indeksowania. Na przykład strony logowania lub strony zasobów przeszukiwacze wyszukiwarek nie powinni nawet żądać takich adresów, ponieważ takie adresy powinny być ukryte przed wyszukiwarkami, dodając je do pliku Robots.txt.

Zarządzanie plikiem Robots.txt

Możesz skorzystać z funkcji wykluczania robotów w IIS SEO Toolkit, aby stworzyć plik Robots.txt, który informuje wyszukiwarki, które części witryny nie powinny być indeksowane lub indeksowane. Poniższe kroki opisują sposób korzystania z tego narzędzia.

Otwórz konsolę zarządzania IIS, wpisując INETMGR w menu Start.
Przejdź do witryny sieci Web, korzystając z widoku drzewa po lewej stronie (na przykład Domyślna witryna sieci Web).
Kliknij ikonę Search Engine Optimization w sekcji Management:
Na głównej stronie SEO kliknij link „ Dodaj nową regułę niedozwolenia ” w sekcji Wykluczenie robotów .

Dodawanie reguł Disallow i Allow

Okno „Add Disallow Rules” otworzy się automatycznie:

Protokół wykluczania robotów używa dyrektyw „Zezwalaj” i „Nie zezwalaj” w celu informowania wyszukiwarek o ścieżkach URL, które mogą być przeszukiwane i tych, które nie mogą. Dyrektywy te można określić dla wszystkich wyszukiwarek lub dla określonych programów użytkownika identyfikowanych przez nagłówek HTTP użytkownika-agenta. W oknie dialogowym „Add Disallow Rules” możesz określić, do którego przeszukiwacza wyszukiwarki ma zastosowanie dyrektywa, wprowadzając agenta użytkownika robota do pola „Robot (User Agent)”.

Widok drzewa Ścieżka URL służy do wyboru, które adresy URL powinny być niedozwolone. Wybierając ścieżki URL, możesz wybrać jedną z kilku opcji, używając listy rozwijanej „Struktura URL”:

Lokalizacja fizyczna - możesz wybrać ścieżki z układu fizycznego systemu plików witryny sieci Web.
Z analizy lokalizacji (nazwa analizy) - możesz wybrać ścieżki ze struktury wirtualnego adresu URL, która została wykryta, gdy witryna była analizowana za pomocą narzędzia analizy witryn IIS.
<Uruchom nową analizę witryny ...> - możesz uruchomić nową analizę witryny, aby uzyskać strukturę wirtualnego adresu URL dla witryny sieci Web, a następnie stamtąd wybrać ścieżki URL.

Po wykonaniu kroków opisanych w sekcji wymagań wstępnych dostępna będzie analiza witryny. Wybierz analizę z listy rozwijanej, a następnie sprawdź adresy URL, które muszą być ukryte w wyszukiwarkach, używając pól wyboru w widoku drzewa „Ścieżki URL”:

Po wybraniu wszystkich katalogów i plików, które należy zablokować, kliknij przycisk OK. Zobaczysz nowe wpisy zabronienia w głównym widoku funkcji:

Ponadto plik Robots.txt dla witryny zostanie zaktualizowany (lub utworzony, jeśli nie istnieje). Jego treść będzie wyglądać podobnie do tej:

User-agent: * Disallow: /EditConfig.aspx Disallow: /EditService.asmx/ Disallow: / images / Disallow: /Login.aspx Disallow: / scripts / Disallow: /SyndicationService.asmx/

Aby zobaczyć, jak działa Robots.txt, wróć do funkcji Analiza witryny i ponownie przeprowadź analizę witryny. Na stronie Podsumowanie raportów w kategorii Łącza wybierz opcję Linki zablokowane przez Robots.txt . Ten raport wyświetli wszystkie linki, które nie zostały przeszukane, ponieważ zostały odrzucone przez właśnie utworzony plik Robots.txt.

Zarządzanie plikami map witryn

Korzystając z funkcji Sitemaps i Sitemap Indexes pakietu IIS SEO Toolkit, można tworzyć mapy witryn na swojej stronie internetowej w celu informowania wyszukiwarek o stronach, które powinny być indeksowane i indeksowane. Aby to zrobić, wykonaj następujące kroki:

Otwórz Menedżera IIS, wpisując INETMGR w menu Start .
Przejdź do witryny sieci Web, korzystając z widoku drzewa po lewej stronie.
Kliknij ikonę Search Engine Optimization w sekcji Management:
Na głównej stronie SEO kliknij link „ Utwórz nową mapę witryny ” w sekcji Mapy witryn i Indeksy map witryn .
Okno dialogowe Dodaj mapę witryny otworzy się automatycznie.
Wpisz nazwę pliku mapy witryny i kliknij przycisk OK . Zostanie wyświetlone okno dialogowe Dodaj adresy URL .

Dodawanie adresów URL do mapy witryny

Okno dialogowe Dodaj adresy URL wygląda tak:

Plik mapy witryny to w zasadzie prosty plik XML zawierający listę adresów URL wraz z niektórymi metadanymi, takimi jak częstotliwość zmian, data ostatniej modyfikacji i względny priorytet. Użyj okna Dodaj adresy URL, aby dodać nowe wpisy URL do pliku xml mapy witryny. Każdy adres URL w mapie witryny musi być w pełni kwalifikowanym formacie URI (tzn. Musi zawierać prefiks protokołu i nazwę domeny). Pierwszą rzeczą, którą musisz określić, jest domena, która będzie używana dla adresów URL, które zamierzasz dodać do mapy witryny.

Widok drzewa Ścieżka URL służy do wybierania adresów URL, które należy dodać do mapy witryny w celu indeksowania. Możesz wybrać jedną z kilku opcji, korzystając z listy rozwijanej „Struktura URL”:

Lokalizacja fizyczna - możesz wybrać adresy URL z układu fizycznego systemu plików witryny sieci Web.
Z analizy lokalizacji (nazwa analizy) - możesz wybrać adresy URL ze struktury wirtualnego adresu URL, która została wykryta, gdy witryna była analizowana za pomocą narzędzia Analiza witryny.
<Uruchom nową analizę witryny ...> - możesz uruchomić nową analizę witryny, aby uzyskać strukturę wirtualnego adresu URL dla witryny sieci Web, a następnie wybierz stamtąd ścieżki URL, które chcesz dodać do indeksowania.

Po wykonaniu kroków w sekcji wymagań wstępnych dostępna będzie analiza witryny. Wybierz go z listy rozwijanej, a następnie sprawdź adresy URL, które należy dodać do mapy witryny.

W razie potrzeby zmodyfikuj opcje Zmień częstotliwość , Data ostatniej modyfikacji i Priorytet , a następnie kliknij przycisk OK, aby dodać adresy URL do mapy witryny. Plik sitemap.xml zostanie zaktualizowany (lub utworzony, jeśli nie istniał), a jego zawartość będzie wyglądać następująco:

<urlset> <url> <loc> http: //myblog/2009/03/11/CongratulationsYouveInstalledDasBlogWithWebDeploy.aspx </loc> <lastmod> 2009-06-03T16: 05: 02 </lastmod> <changefreq> tygodniowo </ changefreq> <priority> 0.5 </priority> </url> <url> <loc> http: //myblog/2009/06/02/ASPNETAndURLRewriting.aspx </loc> <lastmod> 2009-06-03T16: 05: 01 </lastmod> <changefreq> tygodniowy </changefreq> <priority> 0.5 </priority> </url> </urlset>

Teraz, gdy utworzyłeś mapę witryny, musisz pozwolić wyszukiwarkom wiedzieć, gdzie się ona znajduje, aby mogły zacząć z niej korzystać. Najprostszym sposobem na to jest dodanie adresu URL mapy witryny do pliku Robots.txt.

W funkcji Mapy witryn i Indeksy map witryn wybierz mapę witryny, którą właśnie utworzyłeś, a następnie kliknij Dodaj do Robots.txt w okienku Akcje :

Twój plik Robots.txt będzie wyglądał podobnie do następującego:

User-agent: * Disallow: /EditService.asmx/ Disallow: / images / Disallow: / scripts / Disallow: /SyndicationService.asmx/ Disallow: /EditConfig.aspx Disallow: /Login.aspx Mapa strony: http: // mój blog / mapa witryny .xml

Oprócz dodania lokalizacji mapy witryny do pliku Robots.txt zaleca się przesłanie adresu URL mapy witryny do głównych wyszukiwarek. Pozwoli to uzyskać użyteczny stan i statystyki dotyczące witryny sieci Web z narzędzi webmasterów wyszukiwarki.

streszczenie

W tej instrukcji dowiedziałeś się, jak korzystać z funkcji wykluczania robotów i map witryn oraz indeksów map witryn w narzędziu IIS Search Engine Optimization Toolkit do zarządzania plikami Robots.txt i mapami witryn w witrynie sieci Web. Zestaw narzędzi do optymalizacji wyszukiwarek IIS zapewnia zintegrowany zestaw narzędzi, które współpracują ze sobą, aby pomóc w tworzeniu i sprawdzaniu poprawności plików Robots.txt i map witryn, zanim wyszukiwarki zaczną z nich korzystać.