3.1.5. Немного истории, или Новости в лицах
3.1.5. Немного истории, или Новости в лицах
Прежде чем перейти к следующей возможности, предоставляемой Новостями, немного истории. Предвестником пресс-портретов на Яндексе были Новости в лицах. Это одна из немногих разработок, выполненная сотрудниками Яндекса совместно со сторонней компанией. Соисполнителем разработки была компания "Интегрум" (http://www.integrum.ru/), крупнейший в мире электронный архив русскоязычных документов.
О том, как проводилась работа и с какими сложностями пришлось столкнуться разработчикам, рассказал один из создателей сервиса Лев Гершензон (http://company.yandex.ru/blog/?msg=100050&month=8&year=2005).
Идея делать автоматические именные указатели была навеяна журналом "Власть" и его "Лицами, упомянутыми в номере". Поскольку журналов, газет и прочих поставщиков текстовых документов в "Интегруме" больше трех тысяч, мы решили не мелочиться и сделать подобный именной указатель, но один для всех источников и полностью автоматический.
В большинстве случаев (малочисленные путины, фрадковы, грефы — не в счет), один человек за короткий промежуток времени (1–3 дня) упоминается как участник одного события. Мне показалось, что рубрики и сюжеты Яндекс. Новостей станут интереснее, а главное, читатель сможет быстрее и лучше понять, что к чему, если применить к ним ту же технологию.
Главной особенностью программы является отсутствие какого бы то ни было заранее заданного списка людей — новые несловарные фамилии автоматически определяются и приводятся к словарной форме по специфическому контексту (имя, инициалы и др.). Кроме того, с высокой точностью разграничиваются однофамильцы и разрешается родовая омонимия (ср. Валентина Матвиенко, Александра Лебедева — мужчина или женщина?).
А вот, например, с какими проблемами и ошибками пришлось столкнуться.
• Имена омонимичны обычным словам. В самом начале в "Сегодня в лицах" фигурировали такие персонажи: Гера Советского, Вячеслав Богу, Надежда Доброй.
• Фамилии могут совпадать с отчествами. Бывшие бизнес-партнеры Борис Абрамович Березовский и Роман Аркадьевич Абрамович и в придачу президент компании "КрасЭйр" Борис Михайлович Абрамович доставили нам немало хлопот.
• Некоторые фамилии склоняются, некоторые нет. И если их нет в словаре, по их внешнему виду (по буквам) понять, к какому типу относится фамилия (и если склоняется, то как) далеко не всегда удается. Ардзинба и Анкваба. Поняли, что первая фамилия в именительном падеже, а вторая — в родительном? А так похожи.
• Мужские и женские имена тоже очень часто имеют общие формы (см. ранее).
• Есть такие народы, в которых одного имени человеку недостаточно. Мы этого не понимаем и ошибаемся. Без энциклопедического багажа совершенно не понятно, сколько человек тут упомянуто: Джон Рональд Руэл Толкиен.
Как бы то ни было, но сервис Новости в лицах был создан, и через год после начала разработки был предъявлен посетителям. Сейчас этот сервис не выделяется отдельной страницей, как было при его создании, но превратился в поставщика информации для блоков Сюжеты в лицах.
Главной особенностью программы, анализирующей тексты новостей, является отсутствие заранее заданного списка персон — при обработке сообщения программа самостоятельно находит в тексте имена и фамилии и добавляет их в рейтинг.
Списки имен создаются отдельно для каждой рубрики, региона, сюжета и результатов поиска. Таким образом, пользователь может наблюдать, как меняется состав лиц, о которых пишут журналисты, от Нижнего Новгорода к Иркутску, кто сегодня является наиболее заметной фигурой спортивной сферы, а кто — культурной.
Рейтинги обновляются каждые 10 минут — одновременно с появлением новых сообщений на Яндекс. Новостях, — что позволяет быстро находить упоминания ньюсмейкеров в актуальных сюжетах. Списки имен представлены на всех страницах службы, когда данные позволяют набрать достаточную статистику.
Отзывы об этом сервисе превзошли все ожидания, захотелось двигаться дальше, и тогда появились пресс-портреты.
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКДанный текст является ознакомительным фрагментом.
Читайте также
Немного истории
Немного истории Компания QSSL, разработавшая операционную систему QNX, была создана в 1980 году Дэном Доджом и Гордоном Беллом (оба — выпускники университета Ватерлоо, расположенного в Онтарио, Канада). Сначала компания называлась Quantum Software Systems Limited, а ее продукт назывался
Начало истории ZFS
Начало истории ZFS Разработчики ZFS поставили себе честолюбивую цель: создать систему хранения данных, которая отвечала бы всем трем критериям сформулированного ранее идеала. Разработка её проводилась в компании Sun Microsystems, командой под руководством Джеффа Бонвика (Jeff Bonwick)
Немного истории
Немного истории Завязка сюжета относится к 2011 году. До этого момента в качестве рабочего окружения в Mint использовался GNOME текущей версии — той же, что в базовой Ubuntu. Правда, GNOME был в нём главным, но не единственным десктопом. Чуть ли не со дня основания Mint существовала и его
Поиск в истории
Поиск в истории Во всех современных «развитых» шеллах предусмотрены средства поиска команды в буфере истории — простым перебором (обычно Meta+P — назад и Meta+N — вперед).Впрочем, не смотря на громкое название, обычный поиск ничем практически не отличается от пролистывания
Начало истории ZFS
Начало истории ZFS Разработчики ZFS поставили себе честолюбивую цель: создать систему хранения данных, которая отвечала бы всем трем критериям идеала. Разработка её проводилась в компании Sun Microsystems, командой под руководством Джеффа Бонвика и Мэттью Аренса (Matthew Ahrens).
Из истории юриспруденции
Из истории юриспруденции А что же Linux, спросите вы меня? Как обстоит дело с поддержкой ZFS в самой массовой из свободных UNIX-подобных операционных систем нашего времени? А вот с Linux’ом все оказывается гораздо сложнее. Ибо не зря поминали мы выше лицензию CDDL. Которая сама по
3.3.1. Немного истории
3.3.1. Немного истории Раньше, когда не было Интернет-репозиториев, во всех RH-совместимых дистрибутивах для установки, удаления и обновления пакетов использовалась программа rpm. RPM (аббревиатура oт Red hat Package Manager) - это один из самых "древних" менеджеров пакетов. Правда, в первой
4.1.1.1. Немного истории
4.1.1.1. Немного истории В первых версиях Linux не было графического интерфейса.В апреле 1992 года для Linux была создана система X Window - графическая подсистема Linux.X Window (полное название X Window System) - это не графический интерфейс пользователя, это система, предоставляющая инструменты и
Немного истории
Немного истории "Золотые" времена DOS Если мы вернемся в "золотые" времена DOS, то обнаружим, что в то время каждая фирма-поставщик программного обеспечения извращалась по-своему. Не было никакого общего интерфейса пользователя, никаких унифицированных приемов работы с ПО (я
Немного истории
Немного истории Одним из распространенных заблуждений разработчиков баз данных является мысль, что СУБД InterBase ориентирована исключительно на работу с продуктами компании Borland. И этому способствовало то, что до последнего времени все качественные библиотеки доступа к
Приложение 3 Немного об истории портативных компьютеров
Приложение 3 Немного об истории портативных компьютеров 1981 год Выпущен первый портативный компьютер Osborne I. Он был построен на базе процессора Zilog Z80 с тактовой частотой 4 МГц, имел «на борту» 64 Кбайт оперативной памяти и был оснащен последовательным и параллельным
Новости Новости и комментарии: pcmag.ru/news
Новости Новости и комментарии: pcmag.ru/news Раздел подготовил Максим Белоус, Олег Лебедев Оруэллу и не снилось Лучшие антиутопии написаны в середине XX века. Их авторов всерьез беспокоила проблема сокращения личного пространства – такое сокращение неизбежно обусловлено
1.1. Немного истории
1.1. Немного истории Компьютеры Macintosh — детище компании Apple Computer («Яблочный Компьютер»), организованной 1 апреля 1976 года друзьями Стивами: Стивом Возняком и Стивом Джобсом
Новости Новости и комментарии: pcmag.ru/news
Новости Новости и комментарии: pcmag.ru/news Раздел подготовили: Максим Белоус, Игорь Новиков Ничто не вечно под DRM Встречаются люди, искренне убежденные, что владелец авторских прав вправе оберегать от нелицензированного копирования любыми доступными способами всякий