Машина времени для Сети

Игрушка, создающая иллюзию движущейся картинки при вращении барабана, на внутреннюю сторону которого наклеена лента с последовательно меняющимися изображениями.

Интернет постоянно изменяется. Главные страницы новостных сайтов меняются несколько раз в день, многие тематические сайты обновляются ежедневно, об интернет-магазинах и речи нет. Даже в уже опубликованные материалы нередко вносятся исправления и дополнения. И если в случае с бумажными газетами или журналами мы могли просто пойти в библиотеку и пролистать подшивку, то как узнать, что именно было опубликовано, скажем, год назад на главной странице сайта, где вы привыкли узнавать последние новости?

Вы, например, помните, как выглядел сайт Mobi.ru года три назад? Вряд ли это вспомнят даже те, кто создавал этот сайт. А если вам нужно узнать, как он выглядел, допустим, 6 января 2005 года? Такую информацию найти невозможно — если только вы сами 6 января 2005 года не сохранили страницы этого сайта на вашем компьютере.

На самом деле решение этой проблемы не столь очевидно, как может показаться. Конечно, у тех же новостных или тематических сайтов существуют архивы, в которых можно найти ранее опубликованные материалы. Но, во-первых, далеко не все сайты ведут такие архивы с момента создания — хостинг, особенно для проектов с большой посещаемостью, обходится в немалые деньги, поэтому ради экономии дискового пространства (читай — средств) старые материалы (особенно сведения о погоде или курсах валют) частенько просто стираются. Наконец, случаются серьезные технические сбои, когда накопленные на сервере данные теряются и часть их восстановлению уже не подлежит. Чаще всего такое происходит при переносе сайта на другой хостинг, когда в общей суматохе теряются какие-то детали.

Во-вторых, интернет создает искушение исправлять уже опубликованные тексты «задним числом» — например, когда выяснилось, что какая-то информация оказалась недостоверной или когда какой-то прогноз не подтвердился. Об исправлении орфографических или грамматических ошибок можно даже не говорить — многие сайты прямо просят читателей при обнаружении таких ошибок писать в редакцию, и в текст вносятся необходимые исправления.

В-третьих, некоторые интернет-проекты в принципе созданы для отображения только самой актуальной информации. Наглядный пример — сайты крупных разработчиков программного или аппаратного обеспечения, сайты телеканалов или интернет-магазины. Впрочем, случаются и исключения, но в любом случае хранящуюся на таких сайтах архивную информацию сложно соотнести с какой-либо конкретной датой. К примеру, даже если в интернет-магазине сохранились данные о когда-то продававшемся товаре, то, как правило, о нем можно узнать лишь то, что в настоящий момент его в продаже нет. Когда же его можно было купить — история умалчивает.

МАШИНЫ ИЗБРАННОГО ВРЕМЕНИ

Основа интерфейса Zoetrope — «линза»: в браузере выделяется определенный участок, изменения которого и будет отслеживать система.

Решение проблемы поиска по «старому» контенту ученые пытаются найти уже давно. И главное препятствие заключается в том, что для полноценного поиска по всей когда-либо засветившейся в Сети информации необходимо иметь все эти данные. А это физически невозможно — просто не существует таких огромных дата-центров, где все это можно было бы хранить! Да и кто этим должен заниматься — совершенно непонятно. Владелец такого хранилища смог бы запросто соперничать с самыми крупными разведками мира вместе взятыми.

Пока же доступны для изучения лишь ничтожные клочки «старого» интернета. Прежде всего, речь идет о проекте WayBack Machine (), поддерживаемом некоммерческой организацией Internet Archive, существующей за счет пожертвований различных заинтересованных компаний. В их числе Alexa Internet — дочерняя фирма знаменитого интернет-гиганта Amazon.com, которая специализируется на сборе статистической информации о посещаемости различных сайтов.

WayBack Machine существует практически с самого «начала» общедоступного интернета — с 1996 года, и с этого времени было проиндексировано порядка 85 миллиардов страниц, включающих в себя не только текстовый контент, но и изображения, звуковые и видеоролики, а также программное обеспечение.

Несмотря на впечатляющую цифру, это капля в море информации, когда-либо опубликованной в Сети. Да, в WayBack Machine можно узнать, как выглядели те или иные сайты в течение предшествующих двенадцати лет и о чем писали их авторы, однако выбрать какую-то конкретную интересующую вас дату невозможно. Индексация осуществляется далеко не ежедневно, и если для каких-то нечасто обновляемых проектов это не критично, то данные c новостных сайтов представляют скорее исторический, чем практический интерес.

К любой «линзе» можно применить фильтры. Например, на иллюстрации выбран фильтр Ukraine, и перед нами — информация о событиях на Украине.

Впрочем, в Internet Archive изначально понимали, что у них нет реальной возможности охватить всю информацию, выкладываемую в интернет. Именно поэтому в качестве главной задачи проекта WayBack Machine было названо предоставление исследователям и ученым постоянного доступа к историческим коллекциям, существующим в цифровом формате. Подчеркиваю: к коллекциям, а не ко всему объему данных, когда-либо появившихся в Сети.

Существует еще один специфический проект для «возврата в прошлое» — OldVersion.com, но он посвящен только одному специфическому виду контента Сети — программному обеспечению. На этом сайте выкладываются старые версии различных программ, в том числе и некогда коммерческих, разработчики которых давно отказались от их поддержки и сдали «в архив». Естественно, что на OldVersion.com можно найти только самые популярные программы, да и то не все, поэтому этот проект можно причислить к «машинам времени для интернета» с большой натяжкой.

Хорошо знакомая многим возможность посмотреть, как выглядел искомый сайт некоторое время назад — обратиться к кэшу поисковых систем, например, Google или «Яндекс». Но здесь проблема в другом: при последующих индексациях кэш поисковиков обновляется и в нем сохраняются копии уже более свежих страниц. Частота индексирования разных страниц отличается, поэтому сложно сказать, на сколько дней назад можно заглянуть при помощи кэша поисковиков.

ЗООТРОП — ИЛЛЮЗИЯ ДВИЖЕНИЯ

Принципиально новое решение — впрочем, тоже не способное создать базу всего интернета, — предложили ученые из Вашингтонского университета и лабораторий компании Adobe Systems. Встречайте — Zoetrope!

Название Zoetrope было взято вовсе не случайно — оно, как вы увидите дальше, характеризует пользовательский интерфейс этой «машины времени». Зоотропом называлась популярная в XIX веке игрушка, создающая иллюзию движущейся картинки при вращении барабана, на внутреннюю сторону которого была наклеена лента с последовательно меняющимися изображениями. Зоотроп можно считать одним из многочисленных предшественников мультипликации, в которой используется тот же принцип зрительной иллюзии. В интерфейсе нашего Zoetrope можно увидеть изменения контента веб-страницы в динамике — изображения могут с огромной скоростью сменять друг друга.

Но сначала — о принципе работы этой технологии. Как утверждают создатели Zoetrope, эта система добавляет второе, временное измерение к знакомым веб-страницам, которые существуют только в настоящем. В результате появляется возможность интерактивного доступа к меняющейся информации в динамике.

При помощи средств визуализации можно наглядно представить, к примеру, зависимость ситуации на дорогах от погодных условий.

Реализована эта идея весьма остроумным образом — при помощи так называемых «линз» и визуализаций. На практике это выглядит так: пользователь рисует в браузере «линзу» — прямоугольник (на всей интересующей его странице или на ее части), в котором с помощью бегунка можно пролистать, как выглядела эта часть сайта в прошлом.

Над «линзой» отображаются «поисковый виджет», указывающий расположение контента на странице, а также кнопки для создания визуализаций и связывания линз друг с другом. Фактически это Java-приложение, основанное на библиотеке Piccolo с оригинальными средствами работы с изображениями.

На сайте разработчика () размещен видеоролик, наглядно демонстрирующий Zoetrope в действии: с перемещением бегунка содержимое «линзы» меняется. При этом изображения могут сменять друг друга так же быстро, как и в игрушке-зоотропе. Таким образом можно отслеживать не только изменения текстовых блоков, но и разные числовые данные, например, динамику изменения курсов валют или цен на нефть. При этом система автоматически строит график изменения заданных параметров с течением времени.

Несмотря на то что содержимое «линз» представлено в виде изображений, все имеющиеся там ссылки остаются рабочими: щелкнув по ним мышкой, можно выйти либо на страницу в ее текущем состоянии, либо на страницу, соответствующую «линзе» по времени — естественно, если такая страница существует в базе отслеживаемых данных.

На экран можно вывести визуальное представление данных о частоте и продолжительности размещения новостей на главной странице информационного сайта.

Помимо этой основной, у Zoetrope есть и более интересные возможности, позволяющие проводить анализ зависимости одного явления от другого. Для этого простым движением мыши можно связывать линией одни «линзы» с другими, причем даже на разных страницах. Простой пример: привязав «линзу», отслеживающую данные об автомобильных пробках на определенном участке дороги, к «линзе», установленной на информации о погодных условиях, можно проанализировать, как погода влияет на дорожную ситуацию. Привязав «линзу» с информацией о спортивных состязаниях на расположенном в этом районе футбольном стадионе, можно оценить, насколько осложняется движение при выступлении тех или иных команд. Вариантов — масса.

Поскольку страницы многих сайтов постоянно меняются, для отслеживания нужной информации бывает недостаточно обычных «линз» — они могут просто «съезжать» и захватывать блок уже с другими данными. Чтобы не терять необходимую информацию, были разработаны еще два типа «линз» — «структурные» и «текстовые». «Структурные линзы» рисуются точно так же, как и обычные, но они отслеживают изменения не визуальной информации, отображаемой на сайте, а HTML-кода, соответствующего выделенному контенту. В свою очередь, «текстовые линзы» отслеживают определенные фрагменты текста (к примеру, названия футбольных команд или музыкальных групп) вне зависимости от их расположения на странице.

Старейший сайт-хранитель архивов интернета. Насчитывает более 85 миллиардов страниц.

Чтобы выделить в большом потоке информации необходимую, в Zoetrope используются фильтры: по времени, по ключевым словам, по количеству (например, >1), фильтры, исключающие дубликаты, логические и составные фильтры. Поскольку это очень удобное средство анализа информации, фильтры работают вне зависимости от типа установленной линзы. К тому же можно установить одну линзу на другую и также получить отфильтрованные данные.

Наконец, последняя чрезвычайно эффектная и наглядная функция Zoetrope — визуализация самых разных отслеживаемых данных. К примеру, можно отследить изменения главных новостей на каком-либо сайте в виде таблицы с активными скриншотами-гиперссылками или зависимость ситуации на дорогах от погодных условий.

Как все это работает? Архитектура Zoetrope состоит из трех частей: «поискового паука», собирающего необходимую информацию, баз данных для хранения собранного контента и пользовательского интерфейса, о котором мы уже рассказали. «Паук» с регулярными интервалами собирает нужные данные и соотносит их со временем. Поиск реализован в виде двух плагинов для браузера Firefox — Screengrab! и WebPageDump. Для потенциальных пользователей это означает простоту установки системы Zoetrope в будущем.

Каждая страница хранится в двух базах: в XML-виде для индексирования и выдачи информации и в виде изображений для мгновенного вывода страницы на экран. Контент и время его получения составляют последовательность пар. Когда пользователь создает «линзу» или визуализацию, Zoetrope обрабатывает эту последовательность пар с заданными условиями и фильтрами, после чего создает выводимое на экран изображение. На данном этапе поддерживаются только «линзы» и визуализации, но разработчики допускают появление и других типов создаваемых модулей. Наконец, Zoetrope способен экспортировать данные о контенте и времени его получения во внешние системы, например в Google Spreadsheets.

Для тестирования Zoetrope разработчики использовали набор из 250 веб-страниц из разных доменных зон, в который вошли новостные, спортивные, деловые, развлекательные и другие сайты. Набор насчитывает более тысячи образцов каждой страницы. При первоначальном индексировании оригинальная страница занимает в среднем 320 Кб, при последующем — около 92 Кб. В среднем, при индексировании страниц на следующей день сохраняется неизменной 98% собранной информации, через неделю — 95%, через пять недель — 63%, а через год — 11%. Несложно подсчитать, что такой объем данных вполне может храниться и обрабатываться на любом домашнем компьютере.

 

Хранилище устаревших версий популярных программ, в том числе некогда коммерческих.

ВСЕОБЩАЯ ИСТОРИЯ ВСЕГО

Если Zoetrope станет коммерчески доступным продуктом, мы выйдем на качественно новый уровень использования данных из Сети. Грамотно выбрав объекты наблюдения, можно будет не только отслеживать изменения погоды и влияние курса доллара на успехи местной футбольной команды, но и гораздо более интересные вещи. Например, достаточно добавить в Zoetrope модуль авторизации, позволяющий роботу заходить в запароленные места интернета, и после этого каждый желающий сможет открыть свое виртуальное детективное агентство. Скажем, натравив робота на социальные сети, вы получите возможность в буквальном смысле просматривать «личные дела» их пользователей со всеми вносимыми в них изменениями и дополнениями. Покопавшись в блогах, несложно собрать массу данных о деятельности тех или иных политически или экономически активных граждан, в том числе и не совсем законной.

Иными словами, работа, которой всегда профессионально занимались лишь спецслужбы и другие правоохранительные органы, станет доступной простым любителям, и это может не понравиться не только слишком общительным интернетчикам.

Распространение подобных систем может приводить к самым неочевидным последствиям. Казалось бы, Zoetrope поможет правообладателям отслеживать появление в интернете пиратских копий музыки, фильмов и программ и привлекать к ответственности правонарушителей. Но с другой стороны, будет невозможно пресечь дальнейшее распространение уже размещенного в интернете контрафакта, ведь даже на момент его обнаружения уже могут быть сделаны миллиарды копий.

Но самое главное — масштабы архивирования информации из интернета будут совершенно несопоставимыми с нынешними, ведь любой пользователь сможет отслеживать изменения больших объемов информации, и нет никаких сомнений в том, что интересы разных серферов будут пересекаться. В результате даже какие-то особо маргинальные места интернета будут сохранены где-то на локальных компьютерах, да еще и, скорее всего, в нескольких экземплярах.

Самое время еще раз задуматься о том, стоит ли писать в личном блоге, как вы на самом деле относитесь к своему начальству или сколько травки вы выкуривали в студенческом общежитии. Ведь вся эта информация может навсегда сохраниться у ваших недоброжелателей, которые при необходимости не преминут ею воспользоваться.






Рекомендуемый контент




Copyright © 2010-2019 housea.ru. Контакты: info@housea.ru При использовании материалов веб-сайта Домашнее Радио, гиперссылка на источник обязательна.