Поисковик Time Explorer ищет новости в будущем Михаил Карпов
Поисковик Time Explorer ищет новости в будущем
Михаил Карпов
Опубликовано 26 августа 2010 года
В исследовательской лаборатории компании Yahoo, находящейся в Барселоне, разработан прототип поисковой системы по новостям Time Explorer. Он генерирует временную шкалу (таймлайн), который не только показывает, как развивались уже произошедшие события, но и демонстрирует те, которые ещё только должны случиться.
Time Explorer был создан на основе 1,8 миллиона статей, которые опубликовало издание New York Times с 1987 по 2007 годы. Он был показан на конференции Human Computer Interaction and Information Retrieval, которая состоялась на прошлых выходных в США.
Способ поиска прост: шкала, выдаваемая в результате, показывает увеличение или уменьшение количества статей по заданному предмету поиска в течение определённого времени. Наиболее релевантные результаты появляются сверху в виде точек — если подвести к ним курсор мышки, то можно прочитать выдержку из этого материала.
Что же касается будущего, то если в статье указывается на какую-нибудь дату в будущем, то и в таймлайне она отражается в будущем. Таким образом, кстати, можно проверять предсказания (которые, как известно, редко сбываются).
Time Explorer может обнаружить как точные даты в будущем (например, если в статье было указано, что событие намечено на 21 января 2011 года), так и упоминания вроде «в следующем месяце». Движок поисковика просто отсчитывает месяц с момента выхода материала. Поисковик также выделяет упомянутые в статьях имена, места и организации, помещая их в сноске справа. С помощью них в временную шкалу можно добавить новое действующее лицо или для того, чтобы ограничить поиск по определённому месту или человеку.
По словам Майкла Мэтьюса, члена исследовательской команды Yahoo, с помощью Time Explorer можно не только увидеть действующих лиц определённого события, но и узнать, когда они стали настолько важны, что были включены в таймлайн. «Эволюция новостей со временем — не тот тип информации, который можно сейчас легко найти,» — говорит он.
Он также приводит пример того, как визуализация временной шкалы помогает найти неожиданные связи между событиями, скажем, между Слободаном Милошевичем и Саддамом Хуссейном. На таймлайне можно увидеть, что оба они были замешаны в одних и тех же сделках по покупке оружия. Несмотря на то, что пока проект работает на материалах прошлого, Мэтьюс считает, что регулярно обновлять базу данных вполне возможно, хотя и непросто. Он также отмечает, что у многих организаций есть миллионы текстовых документов, от почтовых сообщений до отчётов, и более «умные» средства для поиска по ним вскоре приобретут большую популярность. «В теории, — говорит Мэтьюс, — эти алгоритмы должны работать с любыми данными».
К оглавлению