Главная
Настройка Windows
Как добыть уникальный контент из вебархива

Как добыть уникальный контент из вебархива

17.06.2019

Знаменитый Веб Архив (archive.org, web.archive.org) – некоммерческая онлайн библиотека, включающая в себя 85 миллиардов веб-страниц, графические материалы, а также видео и аудио, была создана с целью хранения и архивирования имеющей ценность информации, которая доступна для изучения и скачивания всем желающим.

Несмотря на то, что большинство пользователей знает об этом web-ресурсе лишь понаслышке, данный сервис является крайне интересным и полезным для тех, кто хотя бы немного интересуется историей и развитием интернета.

К сожалению, большинство web-мастеров и seo-оптимизаторов рассматривают archive.org исключительно как источник бесплатного контента для автоматического наполнения своих «сайтов» или же для возрождения старых проектов с целью дальнейшей продажи на них ссылок в биржах. В действительности же, информация, которую можно найти в Веб Архиве может быть интересна не только создателям сателлитов и сплогов. Archive.org хранит в себе массу полезных сведений, определенной части которых уже нет в интернете.

В данной статье вы рассмотрим, чем именно Веб архив может быть полезен web-мастеру, seo-оптимизатору и даже копирайтеру.

Archive.org или архив интернета: The Wayback Machine

Одним из основных сервисов Веб Архива является The Wayback Machine, представляющий собой огромный архив сохраненных страниц, которые были обнаружены ботом в то или иное время. В результате копия каждого сохраненного сайта хранится в веб архиве в нескольких экземплярах, что позволяет увидеть, как выглядел тот или иной web-ресурс в определенный период времени.

Работа бота The Wayback Machine не подчиняется никаким правилам, поэтому, просматривая хранящиеся там страницы можно легко столкнуться с тем, что некоторые сайты сохранены только частично, и самая интересная их часть осталась не проиндексированной, тогда как в архиве сохранились только служебные страницы (карта сайта, календарь, списки последних статей). Кроме того, в Веб архиве имеется множество страниц, сохраненных в момент, когда сайт был недоступен, взломан или закрыт на техническое обслуживание. Поэтому в Веб Архиве, к сожалению, имеется множество страниц, сохранившихся в виде заглушки.

Некоторые сайты имеют в архиве несколько копий за каждый год, что позволяет просмотреть историю изменений ресурса, другие проекты и вовсе не попадают в базу. Таким образом, предсказать, в каком виде сохранен в web.archive.org тот или иной сайт, невозможно – каждый ресурс следует просматривать отдельно.

Поиск по столь огромной базе страниц возможен только по названию домена. Для этого откройте адрес http://archive.org/web/, введите искомый домен в поисковую строку и нажмите кнопку BROWSE HISTORY.

Перед вами откроется страница с календарем, где вы можете выбрать наиболее интересную вам дату скриншота документа и, кликнув по ней, посмотреть, как выглядел сайт несколькими годами ранее.

Запретить сканирование web-сайта боту The Wayback Machine можно при помощи команды в robots.txt.

User-agent: ia_archiver
Disallow: /

Для чего нужен web.archive.org?

В первую очередь, Веб Архив предназначен для пользователей, которые хотят просмотреть информацию с «мертвого» web-сайта, пропавшего из Сети по тем или иным причинам. В некоторых случаях web.archive.org помогает даже восстановить проект, который был утерян из-за не продленного во время хостинга или домена.

Нередко посетители, привыкшие к общению и обмену информацией на определенном сайте, сами восстанавливают полюбившийся ресурс на новом домене, копируя туда статьи из архива.

Кроме того, Веб Архив – это прекрасная возможность изучения истории того или иного сайта или домена. Иногда в истории web.archive.org сохраняются поистине удивительные «приключения» домена, когда за время его существования на нем несколько раз создается новый web-проект совершенно новой тематики.

Некоторые web-мастера считают Веб Архив удивительным по своей легкости и доступности сервисом для заработка, ведь хранящийся там контент не только уникален, но и бесплатен.

Итак, как заработать с помощью web.archive.org?

Зарегистрировать освободившийся домен с тИЦ и PR и залить на него спарсенный из Веб Архива сайт, находящийся на нем когда-то.

Использовать найденный уникальный контент для наполнения MFA, сплогов и даже СДЛ. Кроме того, найденные тексты можно использовать для размещения через биржи статей с целью продвижения вашего сайта.

И наконец, самый простой способ – продать найденные уникальные статьи на биржах текстов, выдав их за свои.

Важно. Многие web-мастера, не желающие иметь проблем, связанных с нарушением авторского права, почему-то уверены в том, что парсинг Веб Архива является абсолютно безопасным. Дескать, если сайт умер, то принадлежность размещенных на нем когда-то статей доказать невозможно. Однако не стоит забывать, что на найденном в archive.org «мертвом» сайте также могут находиться отсканированные статьи, принадлежащие конкретному автору, который при необходимости сможет легко доказать, что размещенные на вашем сайте статьи – не ваши. Поэтому будьте крайне внимательны и осторожны.

Как искать уникальный контент в Веб архиве: поиск «мертвых» сайтов

Основной вопрос новичков, которые собираются парсить уникальный контент из Веб архива: где находить адреса доменов, где когда-то располагались web-проекты с качественными и интересными статьями? Однозначного ответа на этот вопрос не существует, особенно если учесть, что Веб Архив ежедневно изучают сотни web-мастеров, ищущих ту самую «золотую жилу» - страницы с уникальными и интересными текстами, в результате чего хранящиеся в web.archive.org статьи быстро распространяются по Сети.

Приведем лишь несколько способов искать домены в Веб Архиве, каждый из которых имеет свои преимущества и недостатки.

Анализ списка освобождающихся доменов

Скачиваем список освобождающихся доменных имен со страницы https://www.nic.ru/auction/forbuyer/download_list.shtml. Открываем файл формата. TSV в Excel или любой другой аналогичной программе. Находим там домены, которые, предположительно, могут быть нам интересны. К примеру, имена, в состав которых входит слово seo, скорее всего, использовались для создания блога о раскрутке сайтов. Проверять все домены из списка подряд, не имея соответствующего софта, бессмысленно, так как это приведет к значительным потерям времени. Гораздо менее затратным будет даже самостоятельное написание статей, а не их поиск.

К недостаткам этого способа относится его значительные временные затраты: на изучение большого количества доменов может уйти немало времени.

Анализ конкурентных ресурсов

Неплохим решением может быть специальное отслеживание ряда конкурентных сайтов, которые по своим признакам и параметрам являются явными кандидатами попадания под фильтр АГС. К примеру, вы можете спарсить выдачу Google по важному для вас запросу, а затем вручную просмотреть сайты конкурентов. Если на этих проектах активно размещаются вечные внешние ссылки, в результате чего сайт быстро заспамливается, это явный признак того, что в скором времени владелец откажется от своего сайта, просто не продлив домен. Весь контент этого сайта в скором времени вылетит из индекса.

Способ подходит лишь тем, кто не жалеет времени на анализ конкурентных ресурсов.

Изучение старых каталогов ссылок и статей

Хороший список «мертвых» ресурсов можно найти в старых каталогах ссылок, прогон по которым осуществлялся несколько лет назад. Способ несколько нудный и муторный, зато позволяет быстро находить сайты определенной тематики.

The Wayback Machine: стоит ли овчинка выделки

Как видим, поиск уникального контента в Веб Архиве может потребовать у вас немало времени. Скорее всего, затраченное время намного выгодней было бы потратить на написание или заказ статей. Поиск в web.archive.org можно порекомендовать лишь тем, кто или твердо знает, что именно он ищет (читай: имеет список конкретных «мертвых» сайтов, которые хочет проверить), либо тем, кто испытывает культурологическое удовольствие от изучения сайтов прошлых лет.

Не забудьте и о том, что в случае вашего небрежного отношения к сайту и его техническому обеспечению, благодаря Веб Архиву, и ваш ресурс может возродиться под чужим руководством, спустя некоторое время после "виртуальной" смерти.

Здравствуйте, уважаемые читатели блога сайт. Не так давно я писал про то, которая безусловно заслуживает всяких лестных эпитетов, несмотря на присущие ей небольшие недостатки и критику ее статей со стороны научного сообщества.

Сам факт того, что некоммерческий проект уже не одно десятилетие трудится на благо всего интернет сообщества, заслуживает огромного уважения. Но в сети есть еще подобный масштабный проект, который не получая с этого дохода выполняет очень важную роль — сохраняет архивы сайтов , видео, аудио и печатной продукции.

Что примечательно, в последней колонке этого списка (его можно открыть в Excel) будет отображаться количество архивов, созданных для каждого сайта в Web Archive (правда, проверить наличие домена в веб-архиве можно и в ряде онлайн сервисов, например, на этом или на этом).

Список буржуйских доменных имен, освобождающихся или уже освободившихся, предлагается скачать по этой ссылке . Ну, а дальше просматриваем содержимое сайтов, которое сохранил Web Archive и пытаемся найти что-то стоящее. Потом проверяем уникальность этих материалов (ссылку приводил чуть выше) и в случае удачи публикуем их на своем ресурсе, либо продаем в какой-нибудь .

Да, способ муторный и мною лично не проверенный. Но, думаю, что при некоторой степени автоматизации и обмозговывания он может давать неплохой выхлоп. Наверное, кто-нибудь уже это поставил на поток. А вы как думаете?

Удачи вам! До скорых встреч на страницах блога сайт

посмотреть еще ролики можно перейдя на ");">

Вам может быть интересно

Сравнение сайтов в SEObuilding.RU для бесплатного анализа потенциальных доноров при покупке ссылок
Бесплатный онлайн сервис по подбору красивых и свободных для регистрации доменов (Frishki.ru)
Фотостоки и фотобанки - 30 бесплатных легальных источников фотографий, изображений и иконок
SEObuilding.RU - комплектный бесплатный анализ сайтов с расчетом их траста, стоимости и многого другого
Проверка (анализ) сайта - 85 онлайн сервисов и программ

Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Веб-архив (Webarchive) – это бесплатная платформа, где собраны все сайты, созданные когда-либо, и на которые не наложен запрет для их сохранения.

Больше видео на нашем канале - изучайте интернет-маркетинг с SEMANTICA

Это настоящая библиотека, в которой каждый желающий может открыть интересующий его веб-ресурс, и посмотреть на его содержимое, на ту дату, в которую вебархив посетил сайт и сохранил копию.

Знакомство с archive org или как Валерий нашел старые тексты из веб-архива
В 2010-м году, Валерий создал сайт, в котором он писал статьи про интернет-маркетинг. Одну из них он написал о рекламе в Гугл (AdWords) в виде краткого конспекта. Спустя несколько лет ему понадобилась эта информация. Но страница с текстами, некоторое время назад, была им ошибочно удалена. С кем не бывает.

Однако, Валерий знал, как выйти из ситуации. Он уверенно открыл сервис веб-архива, и в поисковой строке ввел нужный ему адрес. Через несколько мгновений, он уже читал нужный ему материал и еще чуть позже восстановил тексты на своем сайте.

История создания Internet Archive

В 1996 году Брюстер Кайл, американский программист, создал Архив Интернета, где он начал собирать копии веб-сайтов, со всей находящейся в них информацией. Это были полностью сохраненные в реальном виде страницы, как если бы вы открыли необходимый сайт в браузере.

Данными веб-архива может воспользоваться каждый желающий совершенно бесплатно. Создавая его, у Брюстера Кайла была основная цель – сохранить культурно-исторические ценности интернет-пространства и создать обширную электронную библиотеку.

В 2001 году был создан основной сервис Internet Archive Wayback Machine, который и сегодня можно найти по адресу https://archive.org . Именно здесь находятся копии всех в свободном доступе для просмотра.

Чтобы не ограничиваться коллекцией сайтов, в 1999 году начали архивировать тексты, изображения, звукозаписи, видео и программные обеспечения.

В марте 2010 года, на ежегодной премии Free Software Awards, Архив Интернета был удостоен звания победителя в номинации Project of Social Benefit.

С каждым годом библиотека разрастается, и уже в августе 2016 года объем Webarchive составил 502 миллиарда копий веб-страниц. Все они хранятся на очень больших серверах в Сан-Франциско, Новой Александрии и Амстердаме.

Все про archive.org: как пользоваться сервисом и как достать сайт из веб-архива

Брюстер Кайл создал сервис Internet Archive Wayback Machine, без которого невозможно представить работу современного интернет-маркетинга. Посмотреть историю любого портала, увидеть, как выглядели определенные страницы раньше, восстановить свой старый веб-ресурс или найти нужный и интересный контент - все это можно сделать с помощью Webarchive.

Как на archive.org посмотреть историю сайта

Благодаря , в библиотеке веб-архива, хранится большая часть интернет-площадок со всеми их страницами. Также, он сохраняет все его изменения. Таким образом, можно просмотреть историю любого веб-ресурса, даже если его уже давно не существует.

Для этого, необходимо зайти на https://web.archive.org/ и в поисковой строке ввести адрес веб-ресурса.

После, некоторого времени, веб-архив выдаст календарь с датами изменений данной страницы и информацию о его создании и количестве изменений за весь период.

Согласно полученной информации, можно узнать, что главная страница нашего сайта была впервые найдена сервисом 24 мая 2014 года. И, с этого времени, по сегодняшний день, ее копия сохранялась 38 раз. Даты изменений на странице отмечены на календаре голубым цветом. Для того, чтобы посмотреть историю изменений и увидеть как выглядел определенный участок веб-ресурса в интересующий вас день, следует выбрать нужный период в ленте с предыдущими годами, и дату в календаре из тех, что предлагает сервис.

Через мгновение, веб-архив откроет запрашиваемую версию на своей платформе, где можно увидеть как выглядел наш сайт в самом первоначальном виде.

Далее, с помощью календаря со стрелками, в самом верху экрана, можно перелистывать страницы, по хронологии их изменений, чтобы отследить, как изменялся внешний вид и их содержание.

Таким образом, можно нырнуть в прошлое и увидеть все его перемены, которые с ним происходили за все время его существования.

Почему вы можете не узнать на Webarchive, как выглядел сайт раньше
Случается такое, что веб-площадка не может быть найден с помощью сервиса Internet Archive Wayback Machine. И происходит это по нескольким причинам:

правообладатель решил удалить все копии;
веб-ресурс закрыли, согласно закону о защите интеллектуальной собственности;
в корневую директорию интернет-площадки, внесен запрет через файл robots.txt

Для того, чтобы сайт в любой момент был в веб-архиве, рекомендуется принимать меры предосторожности и самостоятельно сохранять его в библиотеке Webarchive. Для этого в разделе Save Page Now введите адрес веб-ресурса, который нужно заархивировать, нажмите кнопку Save Page.

Таким образом, для безопасности и сохранности всей информации, необходимо такую процедуру повторять с каждым изменением. Это даст 100% гарантию сохранения ваших страниц на долгое время.

Как недействующий сайт восстановить из веб-архива

Бывают разные ситуации, когда браузер выдает, что такого-то веб-сервиса больше нет. Но данные нужно извлечь. Поможет Webarchive.

И для этого существует два варианта. Первый подходит для старых площадок небольшого размера и хорошо проиндексированных. Просто извлеките данные нужной версии. Далее просматривается код страницы и дошлифовываются вручную ссылки. Процесс несколько трудозатратный по времени и действиям. Поэтому существует другой, более оптимальный способ.

Второй вариант идеален для тех, кто хочет сэкономить время и решить вопрос скачивания, максимально быстро и легко. Для этого нужно открыть сервис восстановления сайта из Webarchive – RoboTools. Ввести доменное имя интересующего портала и указать дату сохраненной его версии. Через некоторое время, задача будет выполнена в полном объеме, с наполнением всех страниц.

Как найти контент из веб-архива

Webarchive является замечательным источником для наполнения полноценными текстами веб-ресурсов. Есть множество площадок, которые по ряду причин прекратили свое существование, но содержат в себе полезную и нужную информацию. Которая не попадает в индексы поисковых систем, и по сути есть неповторяющейся.

Так, существует свободные домены, которые хранят много интересного материала. Все что нужно, это найти подходящее содержание, и проверить его уникальность. Это очень выгодно, как финансово – ведь не нужно будет оплачивать работу авторов, так и по времени – ведь весь контент уже написан.

Как сделать так, чтобы сайт не попал в библиотеку веб-архива

Случаются такие ситуации, когда владелец интернет-площадки дорожит информацией, размещенной на его портале, и он не хочет, чтобы она стала доступной широкому кругу. В таких ситуациях есть один простой выход – в файле robots.txt, прописать запретную директиву для Webarchive. После этого изменения в настройках, веб-машина больше не будет создавать копии такого веб-ресурса.

Archive Некоммерческая организация, основанная в 1996 году в Сан-Франциско .
Архив собирает копии веб-страниц, графические материалы, видео-, аудиозаписи и программное обеспечение.
Архив обеспечивает долгосрочное архивирование собранного материала и бесплатный доступ к своим базам данных для широкой публики.Декларируемой целью Архива является сохранение культурно-исторических ценностей цивилизации в эпоху интернет-технологий, создание и поддержка электронной библиотеки.
Размер Архива - 3 петабайта (1 петабайт=1000 гигабайт, более точно 1024 гигабайт), в ближайшее время увеличится до 5 петабайтов.
Он содержит 85 миллиардов веб-страниц.
Сервер Архива расположен в Сан-Франциско , зеркала - в Новой Александрийской библиотеке и Амстердаме .
С 2007 г. Архив имеет юридический статус библиотеки.

Wayback MachineСервис архива www.archive.org.
web.archive.org Интересно посмотреть, как какой-то сайт выглядел прежде, а может как выглядел мой сайт?
Правда копии содержат не все страницы, когда-то без картинок, сайт Яндекс заблокировал свою историю.То есть, не требуйте от сайта слишком многого. Архив, он и есть архив. А за ходом интернета сложно уследить, не то, что сохранить. Так что, как уж повезет.

Наткнулся на битую ссылку. Ссылка была на мануал по настройке бэкапов для сайта. Тема интересовала настолько, что полез в archive.org смотреть, что там за мануал такой. Там обнаружил блог человека, который когда-то занимался сайтостроительством, какими-то темами в интернете. Но видимо бросил всё это. Блог существовал до декабря 2013 года, потом еще год висела заглушка. Я возьми да и проверь домен сайта. Он оказался свободным. Дело в том, что меня интересовали подобные сайты давно, я время от времени захожу на telderi и присматриваю себе недорогой сайт IT-тематики для покупки. Пока ничего подходящего по цене/качеству не подобрал.

Зачем мне нужен такой сайт? Я вынашиваю план сделать что-то вроде слияния или поглощения. Соединить такой сайт, с вот этим. Чтобы увеличить на нем трафик и прочие ништяки. Кто-то скажет — а как же диверсификация? Безусловно, диверсификация — дело хорошее. Но тут ещё диверсифицировать пока нечего, нужно сначала что-нибудь развить. И вот, видится мне идея слияния сайтов очень перспективной.

Итак, это всё предыстория. Задумал я найденный сайт восстановить. Оказалось на нём около 300 страниц. Зарегистрировал домен и принялся разыскивать инструмент для выкачивания сайта.

Чем восстановить сайт из веб архива?

Процедура-то нехитрая. Бери и качай. Но дело осложняется тем, что страниц много, и все они будут в виде статических html-файлов. Вручную качать замучаешься. Стал спрашивать у людей, которые таким делом занимались. Люди посоветовали r-tools.org. Он оказался платным. Стал гуглить, поскольку я-то знаю, что это простая процедура, и платить за нее не хотелось, пусть и такую небольшую плату. Решение нашлось очень быстро в виде приложения на ruby . Как я и предполагал, всё очень просто, инструкция прилагается.

Устанавливаем утилиту для восстановления сайтов из archive.org

Недолго думая, устанавливаю всё на сервер и запускаю восстановление.

#устанавливаем руби:

apt-get install ruby

#Ставим сам инструмент:

gem install wayback_machine_downloader

Запускаем выкачивание сайта из веб архива

wayback_machine_downloader http://www.site.ru --timestamp 20131209110704

Здесь в опции timestamp можно указывать отметку снапшота. Поскольку сайт может иметь десятки или сотни снимков в веб-архиве. Я указываю последний, когда сайт был еще жив, логично. Утилита сразу же определяет количество страниц и выводит на консоль выкачиваемые страницы.

Все скачивается и сохраняется, получаем россыпь статических файлов в папке. Создаем у себя папку в нужном месте, и кладем туда выкачанные файлы. Я люблю использовать rsync:

rsync -avh ./websites/www.site.com/ /var/www/site.com/

Если вы с ней ещё не знакомы — рекомендую. Это биржа от компании Мирафокс, которую вы возможно уже знаете по другим проектам для вебмастеров (Telderi, Miralinks, Gogetlinks). На Kwork не фрилансеры побираются по размещенным потенциальным заказчиком предложениям, а сами выставляют предложения, которые заказчик может выбрать. «Фишка» сервиса — базовая стоимость любого кворка (так называют предложения фрилансеров) всегда 500 рублей.

Ну а для тех, кто хочет много букв с непонятными командами и скриптами, разобраться и делать самостоятельно — продолжаем.

Создание конфигурации nginx для восстановленного сайта

Я делаю универсальный конфиг, с прицелом на будущее — обработку php. Возможно понадобится, если захочется оживить сайт и доработать фунционал, например формы отправки сообщений, подписки.

А вообще, минимальная конфигурация для статического сайта будет выглядеть примерно так:

Server {
server_name site.ru www.site.ru *.site.ru;
root /var/www/site.ru;
index index.html;

gzip on;
gzip_disable «msie6»;
gzip_types text/plain text/css application/json application/x-javascript text/xml application/xml application/xml+rss text/javascript application/javascript;

location = /robots.txt {
allow all;
log_not_found off;
access_log off;
}

location ~* \.(js|css|png|jpg|jpeg|gif|ico|woff)$ {
expires max;
log_not_found off;
}
}

Эта конфигурация заодно включает в себя — сжатие и кэширование в браузере.

Перезапускаем вебсервер:

service nginx restart

Как проверить сайт без смены DNS?

В принципе можно ждать обновления dns после регистрации домена. Но хочется поскорее увидеть результат. Да и работу можно сразу начать. Для этого есть нехитрый способ — записать IP сервера для нужного домена в файл hosts, запись такого вида:

10.10.1.1 site.ru

После этого нужный сайт станет открываться исключительно у вас на компьютере.

Вот так. Чувствую себя некромантом:)

Сайт будет показываться ровно так, как видели его пользователи. Все ссылки будут работать, поскольку у вас есть все нужные файлы. Возможно какие-то из них будут битыми, где-то будет не хватать изображений, стилей или чего-нибудь ещё. Но это не суть важно — ведь самое главное для любого сайта — контент. А он, скорее всего, сохранится.

Очистка кода восстановленного сайта

Но это ещё не всё. Хотя можно и оставить в таком виде. Но чтобы добиться лучшего эффекта, есть смысл немного причесать восстановленный сайт. Это вообще самая сложная часть во всей этой затее. Дело в том, что раз сайт будет показываться так, как видели его пользователи, в коде страниц будет куча всевозможного мусора. Это в первую очередь реклама, баннеры и счётчики. Также какие-то элементы, которые на статическом сайте ни к чему. К примеру, ссылка для входа в админку сайта. Формы для отправки комментариев, подписки, какие-нибудь кнопки и другие элементы, доставшиеся в наследство от динамической CMS, на которой сайт работал раньше. В моём случае это был WordPress.

Как удалить фрагменты html кода на множестве статических страниц?

Как же это всё можно убрать? Очень просто. Смотреть в коде — и просто удалять ненужное. Легко сказать. Но страниц у нас несколько сотен. Поэтому тут нужна магия.

find ./site.ru/ -type f -name "*.html" -exec sed -i "s|

Вход

||g"
{} \;

Вот такой конструкцией можно убрать ВСЕ html-теги из файла. Самое простое. У вас тогда получатся текстовые файлы

sed -e "s/]*>//g" test.html

Нормальный подход, если вы просто качаете контент и потом будете использовать только полезное содержимое для чего-либо другого — для написания новых статей, для дорвеев, или чего-то ещё.

Но мне это не подходит, я хочу сначала воссоздать сайт полностью и посмотреть как он будет оживать и будет ли вообще. Поэтому работа по очистке кода занимает у меня пару часов кропотливой работы. Я открываю страницы сайта, отладчиком смотрю исходный код страниц, нахожу ненужные мне javascript, баннеры, счетчики, формы.

Вот так я убираю счетчик Liveinternet cо всех страниц моего статического сайта:

find site.ru/ -type f -name "*.html" -exec sed -i "//,//d" {} \;

find site.ru/ -type f -name "*.html" -exec sed -i "s|||g" {
} \;

Несмотря на конструкции, которые несведущему человеку могут показаться страшными — это довольно простые вещи, поскольку в этом счетчике есть уникальные теги-комментарии, по которым мы определяем часть кода для удаления, указав их в качестве паттернов.

В некоторых случаях приходится поломать голову, чтобы вырезать лишнее и не задеть нужное, ведь некоторые элементы могут повторяться на страницах. Например, для удаления счетчика Google Analytics пришлось сочинять вот такое:

Сначала удаляю строку с которой начинается счетчик. Эта команда удаляет строку над паттерном var gaJsHost, поскольку мне нужно удалить её только в этом месте и не трогать нигде больше:

find site.ru/ -type f -name "*.html" -exec sed -i -n "/var gaJsHost/{x;d;};1h;1!{x;p;};${x;p;}" {} \;

Теперь вырезаем остальную часть, которую становится легко идентифицировать по уникальным паттернам в первой и последней строках:

find site.ru/ -type f -name "*.html" -exec sed -i "/var gaJsHost/,/catch(err)/d" {} \;

Аналогичным образом я убираю форму добавления комментариев:

Зачищаю 4 строки с неуникальными закрывающими тегами после строки с уникальным паттерном:

find theredhaired.ru/ -type f -iname "*.html" -exec sed -i "/block_links/{N;N;N;N;s/\n.*//;}" {} \;

А теперь вырезаю довольно большой блок строк на 30, указав уникальные паттерны его первой строки и последней:

find theredhaired.ru/ -type f -iname "*.html" -exec sed -i "/ Подписка/,/block_links/d" {} \;

Вот эти последние пару случаев можно конечно попытаться выпилить с помощью мультистрочных паттернов, но я их так и не осилил, сколько не гуглил. Примеров с multi-line находил много, но они все простые, где нету спецсимоволов, escape-символов (табы, переводы строки).

Возможно всю эту очистку будет проще сделать на php или даже perl, для которого обработка текста это предназначение. Но я, к сожалению, оными не владею, поэтому использую bash и sed.

Всё это я проделывал на отдельной копии сайта с кучей итераций, тестов, чтобы всегда была возможность откатить изменения я сохранял копии после каждого значительного изменения, опять же с помощью rsync.

Как массово редактировать тайтлы и другие элементы на статическом сайте?

Поскольку моя задача не просто воскресить сайт, а добиться его индексации, ранжирования в поиске и даже получения трафика из поиска — мне нужно подумать о каком-никаком SEO. Оригинальные тайтлы мне однозначно не подходят, поэтому я хочу их изменить. В наследие от WordPress досталась схема %sitename% » %postname%. Тем более sitename у нас невнятный — сам домен сайта. Самый простой вариант выпилить первую часть тайтла. Но это мне тоже не годится. Поэтому я поменяю эту часть тайтла на хитрый запрос. Вот так я это делаю:

Как видите, множество проверок и итераций. Но в итоге, тайтлы становятся такими, какими нужно. Можно догадаться, что я затеял попытку собирать на этот сайт трафик по запросам о восстановлении сайтов из веб архива. Зачем мне это нужно — я собираюсь оказывать платную услугу по восстановлению таких сайтов. Как видите, в данном случае довольно просто сделать замену. Можно было не заморачиваться несколькими вариантами, а подвести всё под один. Но мне захотелось убрать или поменять лишние символы, а раз уж вариантов оказалось несколько, то я и поменял их на несколько своих. Такое вот SEO.

Теперь я собираюсь добавить Яндекс Метрику во все html-файлы моего сайта. А заодно перевести его со старой схемы www на без www.

Как перевести статический сайт с www на без www?

Это делается простой заменой:

find ./ -type f -iname ‘*.html’ -exec sed -i ‘s/http:\/\/www.site.ru/http:\/\/site.ru/g’ {} \;

После чего на всякий случай в конфигурации nginx вынесем вариант с www в редирект:

server {
server_name www.site.ru;
return 301 $scheme://site.ru$request_uri;
}

Как создать карту сайта sitemap.xml для статического сайта?

Это понадобится, когда мы будем добавлять сайт в поисковые системы. Это очень важно, учитывая что наш сайт восстановленный, на нем возможно отстутствует какая-нибудь навигация, и на какие-то страницы вообще не будет ссылок. Карта сайта этот момент сглаживает — даже если переходом по самому сайту на страницу попасть нельзя — мы указав ее в sitemap.xml позволим её проиндексировать, что потенциально может привести трафик из поиска прямо на страницу.

Кроме того, через некоторое время я проведу анализ результатов, которых я достиг с этим сайтом. Трафик, лиды или что-то ещё. Так что, следите за обновлениями на сайте, через 2-6 месяцев вы увидите продолжение истории. Покажу стату, если таковая будет и т. д. Если вы читаете эту статью спустя полгода, а ссылки на продолжение до сих пор нет — напомните мне об этом в комментариях, пожалуйста:)

Разобрались, не?

Если вы прониклись, во всём разобрались и собираетесь делать самостоятельно — низкий вам поклон и уважуха. Мне нравятся люди, которые хотят во всём разобраться и постичь.