Web Scraping і ефективне біле СЕО-просування

  1. Web Scraping для чайників: керівництво для новачка
  2. Прийом №1. Шукаємо «контент-євангелістів» серед читачів.
  3. Прийом №2. Шукаємо експертів для оглядових статей.
  4. Прийом №3. Прибираємо RSS сміття.
  5. Прийом №4. Визначаємо контент високої якості.
  6. Прийом №5. Збираємо інформацію з сайтів типу Reddit / Хабрахабр.
  7. Прийом №6. Будуємо правильні відносини з користувачами.
  8. висновок

Якщо ви хоч раз потрапляли на знаменитий Хабрахабр, то точно натикалися на керівництва по парсингу даних і web scraping.

Вони часто фокусуються різних методах прискореного збору інформації. Нічого вкрай складного в використовуваних прийомах і технологіях немає, а саме поле залишає величезний простір для експериментів і нескінченних проб і помилок.

Загострювати увагу на технологічних аспектах парсинга і Web Scraping ми не будемо, а перейдемо відразу до основної теми: яку інформацію потрібно збирати і як її використовувати з максимальною ефективністю. У більшості випадків немає ніякого сенсу вистачати все тайтли з перших-ліпших сторінок. Процес збору даних повинен бути акцентованим і націленим на певний результат. Тільки в цьому випадку можна добитися відмінних результатів.

У великому інформаційному огляді про те, наскільки важливо використовувати білі методи і максимально розширювати «аутріч», велика увага приділяється важливості відмови від чорного СЕО і переходу на більш «цивілізовані» методики просування. Зробити це без правильного підходу до оптимізації контента і об'єктивної оцінки екосфери сайту майже неможливо. Тут нам допоможуть техніки web scraping.

У цьому огляді ми постараємося відповісти на кілька важливих питань, що стосуються прийомів збору інформації:

  1. Як знайти відданих «євангелістів» в загальній масі коментарів на сайті?
  2. Як визначити зацікавлених в потенційне співробітництво експертів?
  3. Як відокремити від контенту нерелевантні «сміття» і гостьові пости?
  4. Як правильно аналізувати ефективність різних категорій блогу?
  5. Як створювати найкращий контент для сайтів типу Хабрахабр / Reddit або соціальних мереж?
  6. Як будувати тривалі стосунки між контентом і користувачем?

Відповіді на ці питання часто приходять до нас у вигляді частково автоматизованих рішень і стають важливою частиною планування операцій по збору даних. Спочатку трохи про те, що ж таке web scraping.

Web Scraping для чайників: керівництво для новачка

Уявімо, що у нас стоїть завдання швидко зібрати тайтли останніх 50 релевантних сторінок ваших конкурентів. Це дозволило б вам оцінити тренди і ефективність тих чи інших матеріалів. Наявність такої цінної інформації зробить планування наповнення краще і дозволить націлити зусилля на створення якісного контенту, який із задоволенням приймуть до публікації зовнішні майданчики.

Якісний контент буде справжньою «зіркою» вашого корпоративного блогу. Про важливість роботи з зовнішніми майданчиками і методах поліпшення контенту для них є цілий окремий матеріал з деталями і практичними порадами.

Щоб максимально результативно їх використовувати, життєво необхідна додаткова інформація.

Для збору тайтлів ми могли б просто завантажити html-сторінки, відкрити їх в редакторі і знайти тайтли. Можна також просто використовувати інструменти розробника в браузері і виділити необхідні дані. Копіюємо і вставляємо вручну.

Копіюємо і вставляємо вручну

Процес нудний, що поглинає неміряна кількість часу. Тому використання самостійно написаних або простих напівавтоматичних інструментів (наприклад, додаток для браузера Chrome webscraper ). В цілому є два основних способи визначити необхідні дані:

  1. Використання визначеного шляху для пошуку даних (XPath / CSS).
  2. Використання пошукових алгоритмів типу Regex.

В абсолютній більшості випадків використання першого методу буде кращим. Уявімо, що нам потрібно витягти заголовок з даного матеріалу, тег H1.

Він укладений в тезі BODY. У максимально спрощеному вигляді шлях для пошуку буде таким:

  1. XPath: / html / body / h1
  2. CSS selector: html> body> h1

Зверніть увагу на те, що в документі тільки один заголовок з тегом h1. Ніяких додаткових умов для пошуку задавати не потрібно. Тому можна було б і спростити умови до елементарних // h1 (XPath) або h1 (CSS). Подібні прості умови далеко не завжди є найбільшим головним болем оптимізатора. Що робити, якщо мета більш складна і ми хочемо отримати дані з переліків їжі на сторінці? Вони перераховані в несортовані списку з класом «FOOD».

Можна спробувати поставити шлях в стилі // ul / li (ul> li). Це буде працювати, але потрібно також звернути увагу на наявність двох списків з різними класами. Через те, що немає специфічних вказівок для пошуку, будуть зібрані дані з обох списків, а це нам зовсім не потрібно. Тому шлях треба трохи модифікувати. Зробити це можна так:

  1. XPath: // ul [@ class = 'food'] / li
  2. CSS selector: ul.food> li

Якщо ви віддаєте перевагу автоматизацію і використання алгоритмів, то можна спробувати Regex. Тут теж немає нічого складного, а використовувати його більш результативним в тих випадках, коли задати шлях дуже важко. Тут потрібно звернути увагу на особливості процедури пошуку.

Наприклад, ми хочемо знайти слова з певним контекстом. Часто це потрібно для виявлення ключових виразів, використовуваних конкурентами. Для цього ми поставимо наступний алгоритм пошуку: <h1> Як просувати (. *) В блозі </ h1>. Таким чином ми змусимо алгоритм шукати тільки слова в цій частині фрази і витягувати будь-яке слово, що потрапляє під опис.

Взагалі Regex менш структурований в порівнянні з XPath і CSS. Тому ми використовуємо цей метод рідко, а більшість вебмайстрів вдаються до нього лише тоді, коли всі інші опції вичерпані.

Прийом №1. Шукаємо «контент-євангелістів» серед читачів.

Євангелістами ми часто називаємо тих, хто зацікавлений у вашому контенті і регулярно читає певні публікації. Визначення цієї ключової цільової аудиторії життєво важливо для успіху вашого блогу в довгостроковій перспективі. Правильний таргетинг обов'язково принесе результати, якщо ви знаєте, кому буде цікава ваша наступна публікація.

Стрічка коментарів може бути дуже довгою, виписувати кожне ім'я можна. Тому можна просто позбирати потрібні дані за пару кліків. Є дуже зручна надбудова для Chrome - Scraper . Це відмінний інструмент розробника, що допомагає швидко збирати дані зі сторінок, які ви можете переглядати в поточний момент часу. У нашому випадку ми шукаємо людей, яким буде до щекоток цікаво ознайомитися з порадами щодо СЕО-просування.

Знаходимо відповідний матеріал з великою кількістю коментарів і збираємо дані. Досить просто натиснути правою кнопкою, пункт «scrape similar» з'явитися там після установки інструменту.

У вікні будуть всі імена людей, які залишили свій коментар. Це читачі, зацікавлені в темі, їх ми і будемо сповіщати про схожих матеріалах і публікаціях для просування власного контенту. Всі дані можна перемістити в таблицю в Google Docs або ж скопіювати в буфер обміну.

Цей прийом необов'язково використовувати на незалежних майданчиках начебто Хабрахабр. Ви можете шукати дані навіть на власному корпоративному блозі. Набридливо стукати до всіх підряд не варто. Спробуйте відправити їм пару запрошень почитати нові публікації, але поважайте читачів і не стаєте джерелом ненависного всім спаму.

Щоб зробити розсилки більш корисними користувачам і збільшити потенційну конверсію, дотримуйтесь наших радам щодо поліпшення клікбельності e-mail розсилок . Вам вдасться використовувати зібрану інформацію з максимальною результативністю.

Прийом №2. Шукаємо експертів для оглядових статей.

Зараз більшу популярність здобули матеріали з думками різних експертів. Далеко не всі фахівці будуть раді вашим проханням взяти участь у створенні нового запису в вашому корпоративному блозі, але є й ті, що з готовністю займаються взаємним просуванням і з задоволенням додадуть «важкий» вашому контенту. Наше завдання знайти таких людей.

Для цього шукаємо популярний матеріал з оглядом різних думок від профільних фахівців. На сторінці завжди будуть повторюватися імена експертів і посилання на місця їх працевлаштування. Цих даних достатньо для підбору кола експертів, потенційно зацікавлених у співпраці. Просто вибираємо весь цікавий нам текст і збираємо схожі дані на сторінці.

Виглядати табличка буде просто. Там є необхідні дані: ім'я, посаду в компанії, назва компанії. Використовуємо ці дані для того, щоб сформувати коло професіоналів, чиї думки будуть авторитетними і допоможуть просунути матеріал в пошукових системах. Якщо нам потрібні посилання на компанії і їх корпоративні блоги, виділяємо відповідні характеристики і заново задаємо пошук.

Всі дані можна потім упорядкувати вручну або перенести їх в Google Docs, де вони натурально набудуть більш впорядкований вигляд. Продовжуйте збір імен та інформації, поки не наберете достатньо адресатів. Звертайтеся до них з заздалегідь затвердженим планом матеріалу і ніколи не займайтеся порожнім спамом. Інтерв'ю повинні бути короткими і по справі.

Прийом №3. Прибираємо RSS сміття.

Часто в RSS стрічках залишаються блоги, перестали регулярно публікувати нові матеріали давним-давно. При цьому серед них часто є і партнерські сайти, відтягують на себе ваші посилання, які втрачають через це ефективність і релевантність. Про те, як відновити ефективність старих посилань і правильно ними управляти, ми вже говорили в окремій статті . Зараз ми поговоримо, як позбутися від зайвого сміття з RSS стрічок.

Спочатку необхідно знайти блоги, в яких останні пости були місяць і більше тому. Зазвичай такі великі перерви свідчать про зникнення у власника інтересу до ведення блога. Іноді варто зв'язатися з людиною, ведучим блог і регулярно постачають вам гостьові пости, але, якщо мовчання триває кілька тижнів, про нього можна забути.

Взагалі цей процес цілком можна автоматизувати. Зробити це дуже легко всього в 2 етапи:

  1. Знаходимо RSS стрічку блога.
  2. Збираємо всю інформацію «pubDate».

У деяких випадках вам доведеться додати в scraper параметр / feed /, якщо RSS стрічка розташовується за адресою blogname.com/feed/. Цей метод працює не для всіх. Сьогодні блогери часто використовують сервіс FeedBurner від Google.
Повернемось до наших баранів. Зібрані дані потрібно зібрати в єдиний документ XML (це можна зробити після перенесення даних в таблиці Google). Отриманий XML файл ми знову Парс на предмет опублікованих нещодавно постів. Цей процес вимагатиме безлічі повторень, але ви можете використовувати автоматизацію в самій табличці. Вона працює більш як Excel. Ми не будемо загострювати увагу, як управляти звичайними таблицями.

Упорядковуємо дані, отримуємо табличку приблизно такого змісту:

Упорядковуємо дані, отримуємо табличку приблизно такого змісту:

Ця таблиця дає достатньо підстав для категорирования блогів. Якщо в них вже давно немає публікацій, геть їх. Якщо ж протягом місяця була якась активність, то варто перевірити, як він працює. Правильне використання гостьових постів і тісна співпраця з іншими блогами дозволить вам утримувати релевантну позицію в результатах видачі. Для цього можна і потрібно використовувати всі доступні прийоми.

Більш докладно про такі прийоми і важливості збереження топових позицій дивіться в цьому відео:

Якщо не хочете втратити відвідувачів і знижувати темпи конверсії, потрібно намагатися «вичавлювати» максимум з усіх аспектів просування, включаючи партнерські блоги.

Прийом №4. Визначаємо контент високої якості.

Стаття статті ворожнечу. Деякі матеріали показують високу результативність, а інші можуть відставати. Правильне зміщення фокусу дозволить витягти максимум користі з концентрованого уваги по відношенню до зацікавленої цільової аудиторії. Ми пропонуємо великий набір спеціальних утиліт для оптимізації маркетингу і контенту, але навіть ці інструменти не принесуть бажаних результатів, якщо ви зовсім не знаєте, що подобається вашій аудиторії.

Коли мова йде про контент корпоративного блогу, потрібно визначити кілька важливих показників:

  1. Якими темами ваші користувачі діляться частіше?
  2. Чи є якісь специфічні тематики, що збільшують backlink?
  3. Чиї публікації отримують більше уваги читачів?

Ця інформація стане наріжним каменем планування контенту. Прикладів сервісів для збору даних предостатньо. Крутий зарубіжний платний сервіс Ahrefs продовжує набирати обертів. Є багато альтернативних варіантів, але головним завданням є збір інформації про те, як контент збирає трафік і звідки. Навіть стандартні інструменти Google Analytics будуть дуже корисними, якщо у вас «тугий» бюджет.

Дані потрібно упорядкувати в табличці, а потім вже проводити пошук необхідних параметрів виходячи з того, що конкретно ви шукаєте. Фахівці компанії Ahrefs роблять це в такий спосіб.

Фахівці компанії Ahrefs роблять це в такий спосіб

Дану сторінку «прочісують» за допомогою технік web scraping і виділяють ті дані, які потрібні для більш докладного аналізу. Результати можна представити у вигляді інформативного графіка (це можна зробити і в табличках Google і в Excel). Ось як це вийшло у експертів Ahrefs.

Ось як це вийшло у експертів Ahrefs

Прийом №5. Збираємо інформацію з сайтів типу Reddit / Хабрахабр.

Сайти, де користувачеві визначають, наскільки успішним стає певна тема або певний тип контенту, дозволяють швидко розкрутити пости і отримати необхідний для підвищення популярності поштовх. Для виявлення тенденцій і трендів можна використовувати метод збору і аналізу інформації. Доведеться попрацювати вручну, але результат того вартий.

На Редді збір займає довше часу і зажадає підключення сервісів типу import.io. Без зайвої необхідності в просуванні через цей сайт робити цього не варто. Після того, як ви зібрали інформацію, можете вивантажити її в Google Docs. Посилання потрібні для швидкого послідовного пропуску їх через сервіс типу Хаброметр . Це безкоштовна утиліта спеціально для вивчення постів на Хабре і визначення показників матеріалу.

Ви зможете швидко дізнатися показники карми і популярність певних тематик. Показники можна потім згрупувати в таблицю і знову ж пройтися по ній «скрапером».

Прийом №6. Будуємо правильні відносини з користувачами.

Серед ваших читачів в Твіттері, друзів і членів спільнот в соціальних мережах ви обов'язково знайдете тих, хто буде лояльний по відношенню до вашого контенту. Ви можете скористатися описаними вище прийомами збору інформації для аналізу ваших акаунтів в соціальних мережах. Для web scraping по соцмережах можна використовувати корисну утиліту Data Miner . Вона теж підходить для Chrome.

Нам потрібно буде витягти посилання на сторінки користувачів і їх імена (друге опціонально), щоб мати адресну книгу для розсилок про нові постах в блозі. Цю ж техніку можна використовувати для роботи в Твіттері Instagram. Просто знаходимо список читачів і передплатників, а потім Парс його на предмет потрібних нам контактів.

висновок

Є чимало цікавих методик аналізу і збору даних. Web scraping - це простий спосіб швидко дізнатися, як зробити контент краще і підвищити конверсію. Використовуйте ці нехитрі прийоми разом з рекомендованими інструментами, утилітами і стратегіями просування. Успіх не змусить себе довго чекати.

Обов'язково розкажіть нам в коментарях, як ви збираєте дані розвідки.

Як визначити зацікавлених в потенційне співробітництво експертів?
Як відокремити від контенту нерелевантні «сміття» і гостьові пости?
Як правильно аналізувати ефективність різних категорій блогу?
Як створювати найкращий контент для сайтів типу Хабрахабр / Reddit або соціальних мереж?
Як будувати тривалі стосунки між контентом і користувачем?
Що робити, якщо мета більш складна і ми хочемо отримати дані з переліків їжі на сторінці?
Чи є якісь специфічні тематики, що збільшують backlink?
Чиї публікації отримують більше уваги читачів?
Меню сайта
Мини-профиль
  • Регистрация Напомнить пароль?

    Бесплатно можно смотреть фильмы онлайн и не забудьте о шаблоны dle на нашем ресурсе фильмы бесплатно скачать c лучшего сайта
    Опросы
    Топ новости