Пошаговая инструкция по усовершенствованию сайта без вреда для SEO (часть II)
Если вы начали читать эту серию статей со второй части, то рекомендую прочитать и первые три шага по редизайну сайта без вреда для SEO.
Шаг 4 - закрыть тестовый сайт для индексации с помощью noindex
Зачем блокировать индексацию?
Тут всё просто. В процессе редизайна что-то может пойти не так.
Если вы работаете над тестовой версией сайта, последнее, чего бы вам хотелось, чтобы поисковик проиндексировал неудачную версию страницы. К тому же, если вы добавите отличный контент, он тоже проиндексируется. А после запуска нового сайта, этот контент будет рассматриваться как дублированный и ценности сайту не добавит.
Как скрыть сайт от индексации
Разработчики вашего сайта могут воспользоваться одним из двух способов
1 - Поставить флажок 'noindex' в настройках вашей CMS. Если вы пользуетесь WordPress, этот пункт звучит так: "Discourage search engines from indexing this site." (Закрыть этот сайт для индексирования поисковыми системами)
Тогда в каждой страницы добавится следующий код:
2 – Второй способ: закрыть сайт с помощью Robots.txt. Второй способ несколько сложнее, поэтому чаще пользователи выбирают вариант с редактированием CMS.
Если в вашем движке нет такой опции, в robots.txt следует внести следующие изменения:
User-agent: *
Disallow: /
У вас нет CMS? Вы можете вручную вставить этот код, если у вас есть доступ к файлу header.php. Достаточно вставить соответствующих код между тегами .
Шаг 5 - проанализируйте тестовый сайт с помощью поисковых роботов.
Зачем проверять тестовый сайт?
Вам необходимо видеть структуру тестового сайта. Воспользуйтесь поисковым роботом, чтобы сравнить структуру тестового сайта со структурой текущего варианта.
Как это сделать
- Откройте результаты анализа текущего сайта и сделайте копию. Кликните "Save+As" и назовите сохраняемый файл "Краул текущего сайта для редактирования". В этот файл мы будем вносить изменения.
- Пройдитесь по тестовому сайту с помощью веб-краулера. Полученный файл сохраните как "Краул тестового сайта"Сделайте копию файла и назовите ее "Краул тестового сайта для редактирования"— начинаем работу с этим файлом.
- Открываете только что созданный краул старого сайта ("Краул текущего сайта для редактирования) и в Excel выполняете команду Найти и заменить для всех URL. Заменяете доменное имя: "пример.ru" доменным именем тестового сервера:"тест.пример.ru".
- Теперь выбираете все URL и копируете их в текстовый файл (можно использовать Notepad++ или что-то подобное). Сохраните файл как "Тестовый краул для Screaming Frog". Итак, у вас получились следующие документы:
- Краул текущего сайта (xls)
- Краул текущего сайта для редактирования(xls)
- Краул тестового сайта (xls)
- Краул тестового сайта для редактирования (xls)
- Тестовый краул для Screaming Frog(txt)
- В Screaming Frog находите меню Mode, выбираете опцию List. Теперь вы можете подгрузить .txt file в краулер.
- Находите ваш текстовый файл (Тестовый краул для Screaming Frog), в котором содержатся все адреса страниц, которые вы изменили, и подгружаете в Screaming Frog. Нажимаете на кнопку Start.
- Если вы всё сделали правильно, в результате краулер пройдется по всем указанным страницам. Если нет, вернитесь и проверьте, все ли вы правильно сделали. Нужно, чтобы краулер прошелся по всем заблокированным и скрытым от индексации страницам. Заходите в меню Configuration, выбираете Spider.
Находите графу Ignore robots.txt, ставите галочку. Возможно, галочка не стоит.
В этом же окне находите закладку Advanced, здесь вы увидите опцию Respect Noindex (Учитывать Noindex); снимите галочку, если она стоит. Выглядит это примерно так:
Скачайте весь HTML и сохраните Excel -файл. Назовите его "Итоговый тестовый сайт после краула" Этот краул тестового сайта вы проверите позже. Не забывайте и про самый первый краул тестового сайта.
В итоге у вас получится ряд следующих документов:
- Краул текущего сайта (xls)
- Краул текущего сайта для редактирования(xls)
- Краул тестового сайта (xls)
- Краул тестового сайта для редактирования (xls)
- Тестовый краул для Screaming Frog(txt)
- Итоговый тестовый сайт после краула (xls)
Отлично. Вы справились. Теперь у вас есть данные в формате Excel, и вы можете увидеть что работает на тестовом сайте, а что нет. Вы также поймете, что из присутствующего на текущем сайте отсутствует на тестовом.
Шаг 6 - Анализируем полученные данные
Что мы ищем
Итак, после всех краулов, мы можем открыть в программе Screaming Frog XLS -файл под названием "Итоговый тестовый сайт после краула (xls)". Перед вами появится огромный объем данных.
Во-первых, удалите верхний ряд под названием "Internal HTML". Если второй ряд пустой, удаляете и его. Перед вами должны появиться следующие заголовки:
- Address (Адрес)
- Content (Контент)
- Status code (код состояния)
- Status (статус)
- Title 1 (Заголовок)
- Title 1 length (длина)
- Title 1 (ширина в пикселях)
- Meta description 1 (мета-тег Description 1)
- Meta description 1 length ( длина мета-тега Description 1)
- Meta description 1 pixel width (мета-тег Description 1, ширина к пикселях)
- Meta keyword 1 (Мета-тег keyword 1 )
- Meta keywords 1 (длина)
- H1-1
- H1-1 length (длина)
- H2-1
- H2-1 length (длина)
- Meta robots 1 (Мета-тег robots 1)
- Meta refresh 1 (Мета-тег refresh 1)
- Canonical link element 1 (элемент ссылки rel="canonical" 1)
- Size (Размер)
- Word count (количество слов)
- Level (уровень)
- Inlinks (входящие ссылки)
- Outlinks (исходящие ссылки)
- External outlinks (внешние исходящие ссылки)
- Hash (хэш-теги)
Рядом с некоторыми из этих пунктов стоит номер "1", то есть 1 штука. Цифра 2 означает, что таких элементов несколько. Обратите внимание, что цифра 2 не должна стоять рядом со следующими элементами:
- Title (Заголовок)
- Meta description (мета-тег Description )
- Meta keywords (Мета-тегами keyword)
- Canonical tag ( тег Canonical)
- H1 (здесь можно поспорить)
Теперь можно решать, какие изменения необходимо внести.
Перейдите к заголовку "Status Code" (код состояния), задайте значение фильтра код 200. Так вы увидите адреса всех неработающих страниц. По некоторым позициям вы можете увидеть надпись "Connection Timed Out" (Время ожидания соединения истекло). Возможно, причина в самой программе. Проверьте эти страницы вручную. Если они работают, просто обновите документ. Если страницы действительно не работают, то вы обнаружили проблему. Сообщите об этой ошибке веб-мастерам. Они должны знать, как это дело исправить.
Как сопоставлять данные
Я рассказал вам, как протестировать данные. Теперь пора разобраться, что с этими данными делать. Задачей кроулера является анализ текущего и тестового сайтов с целью сбора мета-данных, определения структуры, выявления ошибок на тестовом сайте. Во-первых, давайте отсортируем данные в колонках:
Находим колонку с названием Level (уровень вложенности), кликаем правой кнопкой мышки, сортируем от самого низкого до самого высокого. Теперь сегментируем полученные данные. Я начинаю с Заголовков страниц (Title 1). Выделите первые 7 колонок в документе. Скопируйте и вставьте в новый лист в том же Excel документе, назвав лист "Заголовки страниц". Сделайте то же самое для "Мета-тега Description", но на этот раз выберите первые 4 колонки, а затем с 8 по 10. Повторите процесс для каждого раздела. В итоге у вас появятся следующие листы:
- Лист "Заголовок страницы"
- Address (Адрес)
- Content (Контент)
- Status code (код состояния)
- Status (состояние)
- Title 1 (Заголовок)
- Title 1 length (длина)
- Title 1 (ширина в пикселях)
- Лист "Мета-тег Description"
- Address (Адрес)
- Content (Контент)
- Status code (код состояния)
- Status (состояние)
- Meta description 1 (мета-тег Description 1)
- Meta description 1 length ( длина мета-тега Description 1)
- Meta description 1 pixel width (мета-тег Description 1, ширина в пикселях)
- Лист "Мета-тег Keywords"
- Address (Адрес)
- Content (Контент)
- Status code (код состояния)
- Status (состояние)
- Meta keyword 1 (Мета-тег keyword 1 )
- Meta keywords 1 (длина)
- Лист "Тег H1"
- Address (Адрес)
- Content (Контент)
- Status code (код состояния)
- Status (состояние)
- H1-1 (Тег H1-1)
- H1-1 length (длина)
- Лист "Тег-H2"
- Address (Адрес)
- Content (Контент)
- Status code (код состояния)
- Status (состояние)
- H2-1 (Тег Н2 - 1)
- H2-1 length (длина)
- Канонические ссылки, кол-во слов, уровень вложения, входящие ссылки, исходящие ссылки
- Address (Адрес)
- Content (Контент)
- Status code (код состояния)
- Status (состояние)
- Canonical link element 1 (элемент ссылки rel="canonical" 1)
- Word count (количество слов)
- Level (уровень вложенности)
- Входящие ссылки
- Исходящие ссылки
Возможно, такое количество листов покажется перебором, но как показывает опыт, работать с малыми объемы данных гораздо проще, чем с одним большим документом.
Основные выводы по полученным данным мы сделаем в следующей статье. Следите за обновлениями!