Реставрация WEB 1.0. сайта narod.ru испорченного UCOZ.

Прошло много лет с того момента как открылся сервис бесплатного хостинга narod.ru. На равне с канувшими в лета by.ru, nm.ru, vov.ru, он не побоюсь этого слова, являлся одним из “священных” столпов украинского, белорусского, российского интернета. Ведь с 2000 года, там были зарегистрированы миллионы уникальных HTML сайтов, многие из которых превратились из обычных домашних страничек в настоящие серьезные проекты. За десяток лет, сайты narod.ru перестали быть для многих пользователей частным и обыденным явлением, они превратились не только в свидетельство развития эпохи Web 1.0, но и в культурный и цивилизационный феномен. Можно сказать и больше. Это была последняя постмодернистская священная корова НАШЕГО интернета. Этот сервис содержал не просто какие-то абстрактные сайты, он содержал вехи истории жизни, любви, ненависти, технологий, бизнеса, всего того, что раньше умещали в емкую фразу “домашняя страничка”. Только на narod.ru пока еще можно найти очень старые сканированные фотографии городов конца 90х начала 2000х годов, сайты факультетов, научных кафедр, чатовок, событий, забытых богом уже несуществующих деревень, мемориальных страниц, а так же некоторых программ, коих нигде больше не существует и прочего, прочего, прочего…
Но, к сожалению, к моему глубочайшему сожалению, этих возможностей становится все меньше и меньше. 31 января 2013 года, интернет – общественность узнала шокирующую новость о том, что последний и старейший бесплатный хостинг продается сомнительной с точки зрения нашей морали компании UCOZ. До 25 апреля 2013 года все сайты narod.ru были перенесены на сервера нового владельца. Это событие, вошло в анналы современной истории Internet так же, как и поджог Александрийской библиотеки в мировую копилку дикости и варварства.
Не смотря на заявляния и убеждения UCOZ в том, что они будут бережно относиться к сайтам, такого не случилось. Как написал Антон Благовещенский: “Самой сильной стала претензия относительно эротической рекламы на новом сервере”. Но и это далеко не все. Реклама narod.ru была не только не навязчивой, она не влияла на отображение самих сайтов. Не пропадали фреймы, меню, а сами HTML странички без проблем грузились на компьютерах класса Pentium 1.
Но после переноса сайта на UCOZ, были замечены следующие проблемы. Все архивы не zip формата, были удалены. Миллиарды файлов с уникальной информацией были просто затерты! Все их нет, и уже никогда не будет. Файлы *html & *htm, вместо прописанных в них кодировок Windows-1251 и Koi-8, каким-то чертом начали отображаться в UTF! Из-за чего отдельные браузеры сходят с ума и пользователям приходится вручную указывать кодировку. Но самое неприятное ждало впереди. Некоторые домашние странички исчезли физически. И с каждым днем таких HTML сайтов становится все больше и больше. Эта публикация, попытка рассказать историю о том, как вытащить из UCOZ любимые или важные сайты и при этом вернуть их в первоначальное состояние, то есть отреставрировать.
Шаг 1.
Самое важное, с чем столкнется реставратор сайта narod.ru – это необходимое программное обеспечение. Для простоты и доступности, необходимые утилиты уже собраны в архиве Клуба Web 1.0 Fdd5-25.net (http://club.fdd5-25.net/download.htm). Ниже описан пошаговый алгоритм действий для восстановления сайтов, а так же часто возникающие проблемы.
Итак, неискушенному читателю может показаться, что не существует никаких проблем. Достаточно запустить программу Teleport pro, выкачать нужный сайт и начать им пользоваться.
Признаться, так изначально думал и я, пока не столкнулся с рядом проблем, которые постепенно увеличивали багаж программ и необходимых действий.
Для скачивания сайта, я действительно, пользуюсь старым проверенным Teleport Pro. У которого есть несколько неприятных особенностей. Первая, из которых состоит в том, что нужно вручную дописывать некоторые форматы файлов для скачивания. И это приходится делать в каждом новом проекте, заходя в его свойства и добавляя нужные расширения.
(Скриншот №1).

teleport


Шаг 2.
Следующая неприятная особенность Teleport pro касается его маниакального желания создавать в html файлах тэг (tppabs=”http://”), содержащий путь к месту, откуда был выкачан сайт, а так же в замене внешних ссылок сообщением типа “tppmsgs/msgs0.htm#19”. Но по сути это не проблема. От первого можно избавиться при помощи утилиты TPPABS Remover.
(Скриншот №2).
tppabasremover

А от второго, при помощи той же самой программы, которой удаляются скрипты ненавистной рекламы. Но об этом чуть позже.
Стоит предупредить, что TPPABS Remover работает только с файлами с расширением *.html. Поэтому все *.htm файлы придется переименовать в *.html, дабы утилита могла их обработать.
Шаг 3.
После того, как сайт выкачан и удалены все ненужные тэги , вы столкнетесь с проблемой, которую я, признаться, изначально не заметил. Все HTML файлы представлены в кодировке UTF-8. При том, что оригинальная кодировка Windows-1251. Это критически важный момент. Ведь программы, которые нам позволят массово и по шаблону удалить рекламу из файлов, а так же ненужные ссылки не понимают иной кодировки. И после того, как эти утилиты отработают, существует риск того, что исходный HTML файл превратится в набор не подлежащих дешифровке каракуль.
Так же читатель возможно поинтересуется, зачем что-то удалять сторонними программами? Ведь теоретически все можно сделать вручную. Поясняю. Например, сайт компьютерного юмора Старковского содержит 379 уникальных HTML страниц. Поэтому лучше даже не пытаться что-то редактировать вручную.
Для массовой смены кодировки в файлах, существует отдельная утилита Web-Sam Unicode2ansi.
(Скриншот №3).
unicode2ansi

Следует отметить, что эта программа не заменяет тэг , она меняет именно кодировку файла. Обратите внимание на изображение представленное ниже. Не смотря на то, что указанная кодировка HTML страницы Windows-1251, по сути это UTF-8. Еще один привет от бережливого UCOZ!
(Скриншот №4).
uft8

Хочу предупредить по поводу утилиты Web-Sam Unicode2ansi. У нее существует так же одна нехорошая особенность. Если указать слишком большое количество файлов с перезаписью в самих себя, то она может их повредить. Поэтому настоятельно рекомендую конвертировать не более 50 файлов за один подход.
Шаг 4.
После того, как тэги Teleport pro удалены, а кодировка файлов приведена в соответствие с их изначальным состоянием, начинается самый интересный этап – удаление скриптов рекламы UCOZ и остатков рекламы Яндекса. Да-да. Именно так! Судя по всему, многие домашние страницы не загружаются именно потому, что в них присутствует и старая реклама Яндекс и новая от UCOZ.
Фишка этих скриптов в том, что в каждом файле они имеют новый уникальный код. И если, допустим, неработающие баннеры или какие-то шаблонные выражения типа
scriptext

можно массово удалить или изменить утилитой HTMLCHANGER. Что и приходится делать, то вот с рекламой от UCOZ дела обстоят намного сложнее.
(Скриншот №5).
htmlchanger

Реклама имеет такого рода содержание:

type=»text/javascript» src=»/abnl/?adsdata=OhswCS2biYN9hw1CLW6C3el8wl0KmwOsXlS7
XNVGDZTiEK2cX^dlk4fEtm;IVNdzn84qfL5F9Ik6Shr8cXL7Mh!4!qEpw3JSZUCneULivs;HakwIQOLvfwafmlM3RmiBN5JR;O664OQdzqs2!s;».

При чем как вам стало известно, в каждом новом файле, содержится новый уникальный код. Что не позволяет удалять его по шаблону. Еще один привет от бережливого UCOZ!
Шаг 5.
Мне пришлось долго повозиться прежде, чем найти нужную утилиту меняющую содержимое файлов не просто по шаблону, но и с допущением на подобие результатов команды dir *.*e в DOS. По иронии судьбы такая утилита нашлась в обзоре одного из скачанных под реставрацию сайтов. Это австралийская утилита 2003 года Text Magican v 1.0. Она позволяет не просто удалить шаблон, она позволяет удалить блок текста находящийся в промежутке ОТ и ДО. Смотрите скриншот.
(Скриншот №6).

texmagican

Казалось бы неприятной особенностью программы является то, что она создана для работы с TXT файлами. Но это не такая уж серьезная проблема. Чтобы выбрать HTML достаточно, в меню “открыть” выбирать вкладку “отобразить все файлы”. И так же, как и в случае с Web-Sam Unicode2ansi, не обрабатывать более 50 файлов за один раз.
Пройдя эти пять простых шагов вы сможете полностью очистить HTML страницы от мусора, которым их забил UCOZ, а так же Narod.ru.
Дальнейшие же действия будут зависеть от вашего императива. Сохранять ли старые баннеры или нет? Нужно ли оставлять нерабочие ссылки на внешние сайты или нет? Стоит ли сохранить несуществующую гостевую книгу или нет? Все это уже будет зависеть исключительно от каждого конкретного человека.
В свою очередь хочу добавить следующее, что данный автоматизированный алгоритм действий, помог излечить некоторые важные для меня сайты от болезни UCOZ. Например, мемориальный сайт Немига 99, посвященный трагедии на Немиге, произошедшей 30 мая 1999 года. Когда, спасаясь от дождя около двух с половиной тысяч человек, хлынули в переход станции метро «Немига». Печальным следствием этого события стали 52 погибших и более 150 раненых.
Из-за того, что часть сайта была написана на Java, а сайт перенесли на хостинг UCOZ, меню разделов оказалось неработоспособным, а часть страниц исчезла. Пришлось создавать новый фрейм и ссылки, а так же искать утраченные страницы через Веб Архив http://archive.org/web/, чтобы полностью восстановить информацию.

Роман Карпач www.fdd5-25.net