Глава 4 Открытие морфологии
Глава 4
Открытие морфологии
Аркадий Волож стал первым, кто додумался использовать преимущества богатого русского языка для цифрового коммерческого поиска. А Илья Сегалович — первым, кто реализовал преимущества новой технологии поиска, основанной на принципах русской морфологии. Золотые одноклассники совершили простое, казалось бы, но открытие.
В своем трубопроводном НИИ, куда Волож распределился после окончания «Керосинки», он разузнал об обеспеченном деньгами заказе Института патентной информации (ВНИИПИ) на создание программного продукта для поиска и классификации изобретений.
К тому времени Волож, уже вкусивший первой прибыли, почувствовал дух наживы. Точнее было бы сказать, вкус к процессу наживы.
Волож всегда был человеком не просто общительным, а предметно-коммуникабельным. Он умел заводить нужные знакомства. Еще на четвертом курсе «Керосинки» он сошелся со специалистом по компьютерной лингвистике Аркадием Борковским (нынешний технический директор Yandex Labs в США) из Вычислительного центра АН СССР (здесь, кстати, был написан в 1984 г. всемирно известный «Тетрис»), который, по словам Воложа, «в середине 1980-х на одном из первых IBM PC — их в стране было шесть, один из которых стоял у него дома, — сделал спеллчекер[4] “Орфо”».
Кстати, Борковский был одним из первых сотрудников легендарного советско-американского совместного ИТ-предприятия «ПараГраф», в котором начинали знаковые персонажи российской ИТ-индустрии — Алексей Пажитнов (автор «Тетриса»), Антон Чижов (программы русификации) и Ольга Дергунова (ныне руководитель Росимущества, заместитель министра Минэкономразвития). Среди учредителей были также замечены Гарри Каспаров, академик Абел Аганбегян, Степан Пачиков (в 1986 г. приобрел известность, написав открытое письмо президенту США Рональду Рейгану, которое было опубликовано в США под заголовком «Железный занавес эмбарго»; смысл послания сводился к тому, что следует не ограничивать отправку ПК в СССР, а совсем даже наоборот, ввозить их сюда в огромных количествах).
Мы помним, что Волож не защитил свою мудреную диссертацию, но когда он над ней еще работал в Институте проблем управления АН СССР, то делал это под руководством прекрасного математика Ильи Мучника, спустя почти 20 лет ставшего первым директором Школы анализа данных «Яндекса».
Работа над диссертаций не была напрасной. Благодаря этим усилиям именно в тот период Аркадий четко уяснил проблематику сбора и обработки огромных массивов информации: «Собственно, “Яндекс” и родился из огромного объема информации и понимания того, что, во-первых, в ней надо уметь четко и быстро искать необходимое, а во-вторых, делать это на русском языке».
«Яндекс» вырос из Воложа, точнее, из его профессиональных наработок и человеческих качеств. Возможно, именно в тот момент в судьбе Воложа случился тот самый звездный час, который оправдывает жизнь человека и придает ей смысл.
В 1989 г. два Аркадия организовали кооператив «Аркадия» (по одной из версий, структура называлась «Аркадия — разумные проекты»). Вот как один из них говорит о том нечаянном прорыве (нечаянном, потому что только спустя годы они сумели осознать свое тогдашнее откровение): «Мы, как два Аркадия, создали фирму с очевидным названием. Из сочетания наших с ним профессиональных интересов родилась идея искать информацию с учетом морфологии русского языка. Вообще “Аркадия” специализировалась на создании различных программ поиска».
Что важно, кооператив был целенаправленно создан под уже упомянутый заказ ВНИИПИ. То есть это была уже не группа мечтателей, а люди, нацеленные на деньги. Точнее было бы сказать — на бизнес, на самостоятельную деятельность, которая бы приносила радость творчества, личностное самоудовлетворение и при этом бы еще давала средства к существованию.
Так создатели компании прославили свои имена. Кстати, «Аркадий» в переводе с греческого означает «пастух», «блаженный».
Волож до сих пор считает Борковского одним из своих учителей, который доступно ему объяснил, «как голова связана с руками».
Борковский спустя некоторое время уедет в США, будет работать в Yahoo! одном из основных мировых конкурентов «Яндекса». Сейчас он — руководитель американского филиала у своего работодателя Воложа и член совета директоров «Яндекса».
В истории открытий, которые привносят в мир новое качество, и к каковым, несомненно, относится «Яндекс», важны детали, их нельзя упустить.
Пришло время появиться на сцене Илье Сегаловичу, с которым мы расстались в 1981 г., когда двое прытких юношей из Алма-Аты разошлись по разным московским институтам.
«Так как я закончил Институт геофизики, то и работал в этой области. Мне очень нравился этот вид деятельности. Если конкретно, моим коньком в геофизике были интегральные уравнения второго рода. Это я и считал делом жизни. А разные поисковые системы, лингвистику я считал вещами не очень значимыми», — позже вспоминал Илья Сегалович, который после окончания вуза устроился программистом во Всесоюзный институт минерального сырья. Там он писал геофизические информационные системы на языке программирования «Фортран», работал в лаборатории. «В то время я уже умел программировать, но не могу сказать, что чувствовал себя свободным программистом. Я больше занимался самообразованием. В частности, в книжном магазине заказывал книги по программированию, переведенные с западных языков такими издательствами, как “Радио и связь”, “Мир” и “Финансы и статистика”. Я эти книги изучал, конспектировал и осваивал правильные методы программирования и алгоритмы. Но до поры до времени без особого выхлопа». Собственно, до момента, когда два бывших однокашника встретились.
«Мы пересеклись с Аркадием случайно, и я сказал ему: “Знаешь, я ведь тоже программист, может, у тебя найдется для меня место? Чего вы там, кстати, делаете?” — “Ну, поиск”. — “Господи, ерунда-то какая! То ли дело у нас, интегральные уравнения второго рода, геофизика, пересчет полей. Ну да ладно…” Собственно, я продолжал считать, что это мелковато для меня, но от работы не отказался, соблазнившись приработком», — с удовольствием погружался в прошлое Илья Сегалович, который еще около года совмещал госслужбу с халтуркой у своего бывшего одноклассника, которому он когда-то давал списывать гуманитарные предметы.
Так в 1991 г. Аркадий Волож принял на работу своего бывшего одноклассника — школьного вундеркинда Илью Сегаловича (позже ставшего совладельцем и директором «Яндекса» по технологиям и разработке), который не вдруг согласился. Но потом сдался. Аркаша пообещал ему шестикратное увеличение ежемесячной зарплаты, с $5 до $30.
«Я нашел заказ во ВНИИ патентной информации — им требовалась поисковая система для международного классификатора изобретений. И собрал людей, умеющих искать и профессионально знающих русский язык… На это мы и жили», — подытоживает Волож первый уже самостоятельный шаг в предпринимательстве.
Так и проявляется тот самый «антрепренерский замах» Воложа, который точно подметил Сегалович. То есть способность к продюсированию. Способность организовать, вдохновить и повести за собой людей. Волож — прирожденный лидер. Ну и командный человек, и это качество — склонность и способность к организации коллективного труда — как раз и проявилось в полной мере при создании «Аркадии».
«Все стало серьезно с появлением Сегаловича. Он влезал постепенно: “Тут надо оптимизировать, тут — переписать”», — свидетельствует Волож.
С приходом талантливого Сегаловича поисковики стали работать значительно быстрее, что позволило расширить продажи. Всего около полутора лет проект был коммерчески относительно успешен. В том числе и в результате «химии» между одноклассниками.
«Химия» — любимое словечко Воложа. Например, в следующем контексте: «В любой отрасли объединение двух компаний — большая проблема. Половина этих объединений не работает из-за разницы культур в компаниях. А тут вообще весь бизнес построен только на том, что “встретились несколько интересных людей”. Давайте объединим, скажем, Театр сатиры и “Ленком”. Оба ведь хорошие, вместе еще лучше будет? Но они разные. Механического соединения недостаточно, химия не заработает. Поэтому “Яндекс” не скрестить с Google или Microsoft». Кто бы спорил.
Хотя вот соединились же однажды в правящий (и, возможно, самый длительный в отечественной экономике) тандем полярные Сегалович и Волож, Илюша и Аркаша (так ласково называет отцов-основателей бывший главный редактор «Яндекса» Елена Колмановская). Значит, химия случилась. И получился выдающийся бизнес-тандем, управлявший «Яндексом» долгие годы.
Через некоторое время Сегалович собрался в США. «Но Аркаша — человек хитрый, он как чувствовал, что нельзя было проект из рук упускать! Да и бизнес пошел, деньги появились, помню, мы однажды заключили 90 контрактов за три дня! Тогда мы подружились с Институтом проблем передачи информации, с Юрием Дерениковичем Апресяном (заведующий лабораторией компьютерной лингвистики, академик РАН. — В.Д.), он возглавлял, возможно, лучшую в стране команду лингвистов. Мы купили у них словарь, с ним надо было что-то делать… Аркадий сказал мне: “Давай!” И на меня свалилась та работа, которая меня как-то сразу увлекла, и совсем расхотелось куда бы то ни было уезжать. Я занялся плотно морфологией, лингвистикой, стал писать поисковую часть», — вспоминал Сегалович.
«У человека бывает две-три хороших идеи в жизни (третья идея, по словам Воложа, — это выход “Яндекса” в сентябре 2011 г. на поисковый рынок Турции; интересно, какая же была первая идея: неужели обучение прикладной математике? Или все же женитьба? — В.Д.), и похоже, что тогда возникла одна из таких. Идея простая: если соединить две хорошие технологии — поиск и лингвистику, получится интересный продукт. Мы сделали поиск с морфологией». Так позже будет оценивать тот интеллектуальный прорыв Волож, который сам только спустя годы сумел оценить его значение.
Морфология (от греч. morhpe — форма, logos — учение) изучает слова как части речи — с точки зрения их грамматических свойств. Морфология — это наука о правилах словоизменения и словообразования. Основа морфологии: корень, суффикс, приставка, окончание (или флексия — самая большая головная боль разработчиков русскоязычных поисковиков), которое способно меняться в зависимости от рода, числа и падежа. Морфология русского языка еще в 1970-х гг. была исчерпывающе описана Андреем Анатольевичем Зализняком, будущим академиком Российской академии наук. Результатом этого научного прорыва стали базовые труды для русской морфологии — «Русское именное словоизменение» (1967) и особенно «Грамматический словарь русского языка» (1977), в котором для 100 000 слов русского языка указана точная модель словоизменения и предложена классификация самих этих моделей. Этот словарь стал основой для разработки компьютерных программ автоматического морфологического анализа, в том числе в информационном поиске, в машинном переводе. Именно этот труд лег в основу алгоритма «Яндекса» и других поисковиков, основанного на морфологическом принципе опознавания слов.
Через некоторое время в помощь Сегаловичу отрядили Михаила Маслова, Дмитрия Тейблюма, Сергея Ильинского и Леонида Бровкина. Во главе с Сегаловичем эта группа программистов написала программу морфологического анализа для версии программы на новом словаре. В результате поиск был серьезно улучшен и ускорен. Первым продуктом, по словам Воложа, стала усовершенствованная программа поиска в международном классификаторе изобретений объемом почти 10 МБ. Словарь, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300 КБ, то есть целиком грузился в оперативную память и работал очень быстро. С этого момента пользователь мог задавать в запросе любые формы слов.
«В итоге к 1993 г. вся система поиска стала совершенно другой», — перебирает Волож шаги прошлого. За два года работ были созданы две информационно-поисковые системы — «Международная классификация изобретений», четвертая и пятая редакции, а также «Классификатор товаров и услуг». Обе системы работали под DOS и позволяли проводить поиск, выбирая слова из заданного словаря, с использованием стандартных логических операторов, и по запросу выдавали выборку данных.
Дискеты с программой (по сути, коробочный продукт) покупали преимущественно научно-исследовательские институты и организации, занимавшиеся патентоведением. Удивительно, но поначалу на этот интеллектуальный продукт, из которого впоследствии вырастет «Яндекс», сложился вполне устойчивый спрос. И это несмотря на общий хаос в стране, подлую приватизацию, обвалившуюся экономику. Сумасшедшая инерция была у гибнущей страны.
Это подтверждают и отцы-основатели «Яндекса».
Сегалович: «Этот “классификатор” расходился довольно-таки успешно в течение трех лет. И я постепенно втянулся. В какой-то момент до меня дошло, что эта работа на будущее, она интересна и многогранна».
Волож: «Три года мы этим продуктом занимались, активные продажи вели, даже рекламу давали в газете “Известия”. Все писали у меня на кухне. Человек десять удавалось прокормить этим бизнесом… Но ситуация постоянно ухудшалась… Потому что основными покупателями патентных программ тогда были бюджетные организации, а в начале 1990-х гг. бюджет страны заметно поиздержался, и за наши программы перестали платить».
В результате в 1993 г. «Аркадия» прекращает свое отдельное существование, причем не только по причине отсутствия платежеспособных покупателей: «Кроме того, мы поняли, что программы для пользователей — не наш профиль, наше дело — разработка технологий. В результате “Аркадия” стала маленьким отделом в CompTek. Закрывать фирму нам было жалко, потому что все понимали, что разработки, в общем-то, уникальные. А зарплата пяти сотрудникам большой компании, каковой являлась CompTek, не разоряла, — ностальгирует Волож. — Мы подумали и решили, что хватит держать людей на голодном пайке, давайте лучше считать их всех отделом программирования компании CompTek. Несколько программистов стоят недорого для богатой компьютерной компании, а технологию поиска было оставлять жалко».
То есть продолжать кормиться надо было в новом организационном качестве.
Стабблбайн вспоминает, что он как-то спросил (имел право как совладелец) Воложа: «“Вот эти пять человек бородатых, которые сидят и изобретают что-то очень интересное, о чем я не имею особого представления, — что-нибудь из этого выйдет толковое?” И Аркадий сказал: “Роберт, не беспокойся, когда-нибудь что-то очень интересное из этого выйдет”. Ну, оставалось доверять».
То есть если с железом и другими компаниями, которые оперировали материальными активами, все было более или менее понятно практически с самого начала, то сомнения насчет коммерческих перспектив рынка услуг поиска не покидали не только партнеров Воложа по CompTek.
Сомнения насчет перспектив этого бизнеса оставались и у Воложа. Может быть, до самого 2000 г., когда первый инвестор «Яндекса» перечислил более $5 млн за право собственности на более чем треть на тот момент еще убыточной компании. Или даже до конца 2002 г., когда «Яндекс» зафиксирует первую прибыль и станет лидером на рынке поиска в Рунете.
Впрочем, не суть. Главное, что все эти годы Волож умело скрывал от партнеров свою неуверенность, которая своего пика, возможно, достигла в момент прекращения деятельности «Аркадии».
Тогда-то и стартовал тот самый «Яндекс», то есть уже под крышей CompTek. Осенью 1993 г. появилась первая версия программы Яndex (Yet another indexer — «Еще один индексатор»), дающая возможность включения в поиск быстрого и удобного индексатора.
«Мы продолжали работать над усовершенствованием системы поиска в русскоязычных текстах. Было решено придумать броское название для этой системы. Я долго ломал над этим голову. Писал разные слова, так или иначе связанные с нашей системой. Так я дошел до Yet another indexer, это выражение по смыслу означало “языковой индекс”. А уже Аркадий придумал заменить в слове index первую букву на русскую “Я” — указание на то, что система связана с русским языком», — реконструирует прошлое Сегалович.
«Однажды нам пришло письмо, — рассказывает Волож. — “Как же вы здорово придумали с этими своими инь и ян. Ведь “иньдекс” — это же женское что-то такое, а “яндекс” — это такое сильное, мужское, то есть индекс, но с яйцами!”» Кстати, стартовая страница сайта в Интернете по сей день называется index (index.html, index.php — в зависимости от языка, на котором написан сайт).
«О, это классика жанра… Илюша предложил дать личное имя технологии поиска. Одно из предложенных им названий — Yet another index (“Еще один индекс”). Программисты любят такие штучки. Я сократил его до “Yandex”. “Я” — очень русская буква. Ее нет ни в одном другом алфавите. Очень хорошо для Рунета», — с большой теплотой вспоминает тот период Волож.
Что понятно, в эмоциональном отношении для него это, возможно, один из самых насыщенных и интенсивных периодов жизни. Двадцатидевятилетний математик, отказавшийся от научной карьеры, но уже удачливый, инициативный и динамичный предприниматель еще не увенчан различными призами, наградами, еще не заработал денег для своих внуков, еще не сформировал набор семейных активов, чтобы передать их по наследству, еще не вернул долги своим учителям, еще не создал одну из самых продвинутых команд в ИТ-мире и еще не поучаствовал в восстановлении системы среднего и высшего образования для умных и подающих надежды детей и специалистов. То есть еще много чего — «не». Именно поэтому это и был момент истины, тот самый звездный час, который возносит человека на новый уровень самопознания и реализации, открывая совершенно новые возможности в окружающем его мире. Тут главное — воспользоваться этими возможностями, не упустить своего.
А среагировать.
Реакция — это ведь не означает постоянное броуновское движение, это означает всегда быть наготове, чтобы затем мертвой хваткой уцепить свой шанс. И вот этого качества у Воложа, как создателя, организатора «Яндекса», не отнять.
На сайте «Яндекса» есть официальная трактовка истории имени компании.
Сегодня «Яндекс» — слово из повседневного обихода пользователя Интернета. В Сети часто встречается «А что, “Яндекс” уже отменили?», «Одиночество — это когда с днем рождения первым поздравляет “Яндекс”», «Все вопросы к “Яндексу”». Многим уже кажется, что так было всегда. В некотором роде это правда — «Яндекс» действительно появился одновременно с массовым Интернетом, когда доступ в Сеть перестал быть уделом избранных технических специалистов. Но само слово «Яндекс» — искусственное, имеет своих авторов и свою историю. В 1993 г. Аркадий Волож, будущий генеральный директор будущей компании «Яндекс», и Илья Сегалович, будущий директор по технологиям компании, разрабатывали, как потом выяснилось, главную технологию — поиск неструктурированной информации с учетом русского языка. Разработку надо было как-то назвать. Илья помнит, как выписывал столбиком разные производные от слов, описывающих смысл технологии. Довольно быстро стало понятно, что search («поиск») по-русски звучит слишком неблагозвучно, и удачной комбинации на его основе не сделаешь. Слово index подходило больше. Так в списке названий появился Yandex — Yet another indexer («Еще один индексатор», или «Языковой индекс»). Вариант понравился и Илье, и Аркадию — легко произносится, легко пишется. Кроме этого, Аркадий предложил букву «Я» в названии — специфически русскую — русской и оставить, для наглядности. Так было изобретено слово «Яndex». А файл программы, соответственно, назывался yandex.exe. В 1996 г., когда впервые широкой публике был предложен поиск как технология, а не как часть контентного продукта (до этого были Международный классификатор изобретений и Библейский компьютерный справочник), линейку программ назвали Яndex и объясняли это название как «Языковой iNDEX». Первыми программами в линейке стали Яndex.Site (поиск по одному собственному сайту — этот продукт сейчас называется Яndex.Server) и Яndex.Dict (морфологическая приставка к AltaVista, единственной поисковой системе, которая в то время умела хоть как-то работать с кириллицей). Но, конечно, широкое распространение слово «Яндекс» получило c сентября 1997 г., после запуска поисковой системы http://yandex.ru. С тех пор пользователи системы предлагают нам свои трактовки. Например, Тема Лебедев, готовясь к рисованию первой версии главной страницы сайта «Яндекса», сказал: «А, я понял, если в слове index первое “I” перевести на русский, это будет “Я”, то есть так и получится “Яндекс”». Авторы честно признались, что об этом не думали, но — хорошая трактовка, принимается. Потом кто-то в Сети предложил другой вариант, увидев две стороны Интернета, ИНЬдекс и ЯНдекс. У этого слова уже появились производные, так, сотрудников «Яндекса» часто называют «яндексоиды» и реже — «яндексовцы». Новые трактовки продолжают приниматься на pr@yandex-team.ru.
«Мы стали думать, чтобы еще такое поиндексировать, — отмечает Волож особенность переломного момента в жизни проекта по созданию технологии поиска. — И мы занялись Библией… Библия — это большой текст. Точнее — большой массив неструктурированных текстов. Именно свободных текстов, а не баз данных. Здесь все ищется по-особому. Эта технология и стала впоследствии “Яндексом”».
То есть технологией поиска данных в неструктурированном тексте, каковым по определению является Библия, написанная в разные времена разными людьми, разнесенными друг от друга географическими и временными континуумами, работающими с одной целью, но не сообща. Каковым, кстати, в самом общем приближении является почти безразмерный и вневременной Интернет.
По сути, за основу нового проекта был взят тысячелетний опыт изучения священных текстов Библии, поиск в которых всегда был важнейшей задачей для богословов и церкви.
«Чтобы продемонстрировать обществу наши возможности, я втянул компанию “Аркадия” в проект “Цифровая Библия”, — пояснял Илья Сегалович. — Мы делали это исключительно из общегуманитарных соображений».
Как раз в 1994 г. Российское библейское общество (РБО) выпустило новое издание «Полной симфонии на канонические книги Священного Писания» (Библии), которое, видимо, просто попалось на глаза Сегаловичу. Слова из Библии объединялись в статьи симфонии по формальному принципу (то есть по словоформам). По сути, симфония была поисковой системой. Оставалось только усвоить этот многовековый опыт и соединить с морфологическим поиском, уже опробованным в проектах Воложа.
В итоге был создан «Библейский компьютерный справочник» (точнее, информационно-поисковая система, обеспечивающая работу с синодальным переводом Ветхого и Нового Заветов), возможно, первое в России цифровое издание синодального перевода Библии. Потрудиться пришлось даже жене Воложа Ирине.
При разработке нового принципа поиска Илья Сегалович взял за основу симфонию Библии, которая также составлена с учетом морфологии, именно этот подход, как мы знаем, и лег впоследствии в основу поисковой системы «Яндекса».
Уже в 1994 г. CompTek, по словам Сегаловича, стал «продавать “Библейский компьютерный справочник” с возможностью поиска на дискетах». Оцифрованная синодальная Библия с поиском на дискетах оказалась востребована. И была замечена, что называется, на рынке и коллегами. Сегалович даже делал доклады на ИТ-конференциях, в которых рассказывал о новой технологии.
Следом пришел заказ из Института мировой литературы — на цифровые издания с поиском полных академических собраний сочинений А. С. Грибоедова и А. С. Пушкина. Полученный аванс был очень кстати.
Загадка. Еще одна удача. Положительный результат в этом проекте был не очевиден. Вновь Волож подтвердил свою славу везунчика. Все оказалось не зря.
В этом же году стартовал Рунет, кириллический сектор Интернета, который по признанию Воложа, его совсем не поразил: «С вебом я познакомился… да как-то постепенно. Я не помню, чтобы меня поразил Интернет. Меня скорее за три года до этого впечатлила электронная почта». Это Аркадий вспоминает ту самую историю, когда он в августе 1991 г. сумел отправить кормящей жене из США, где он был на переговорах по поводу поставок оборудования для CompTek, первое в своей жизни электронное письмо.
В 1995 г. стартовал проект «Академическое издание классиков на CD-ROM», разрабатываемый совместно с НТЦ «Информрегистр» и Институтом мировой литературы им. М. Горького РАН (ИМЛИ) при поддержке Роскоминформа. В рамках проекта была создана универсальная технология «Аргонавт», которая позволяла осуществлять атрибутированную навигацию, поиск, разметку и отображение текстов. На основе этой технологии вышло три издания — справочник стандартов «Информ — Норматив», электронное научное издание «А. С. Грибоедов» и «Пушкин. Электронный фонд русской классической литературы». Также был создан словарь языка Грибоедова.
Примерно тогда же в историческом обозе «Яндекса» появляется уже не раз упомянутая Елена Колмановская, которая, числясь до конца ноября 2012 г. главным редактором «Яндекса», на самом деле таковым никогда не являлась, потому как редакции, как мы помним из слов Воложа, в «Яндексе» нет. По мнению Колмановской, «в “Яндексе” ничего не редактируют».
И, опять же, по словам Воложа, Колмановская до ухода на синекуру занималась маркетингом, а делала это, как следует опять же из слов Воложа, в свободное от работы время в качестве личного биографа Воложа. Или же, как однажды высказалась Колмановская, «на самом деле я работаю Аркашиным архивом».
«Волож ее (Елену Колмановскую. — В.Д.) уговорил стать нашим маркетологом. Как позже вспоминала сама Елена, она была первым человеком в “Яндексе”, кто не писал код. Первым ее заданием был обзор поисковых решений, которые существовали на рынке. По результатам этого анализа мы оказались лучшими. Колмановская влилась в команду, и буквально за три месяца мы вышли на рынок с названием Яndex. А уже в сентябре 1996 г. (на выставке Netcom’96, 18 октября 1996 г. — В.Д.) появился наш коробочный софт — Яndex.Site, Яndex.Lib, Яndex.CD, а вскоре и онлайновый Яndex.Web… Начиная с 1996 г. мы предлагали потребителю приобрести эту систему как самостоятельный сервис… На протяжении 1996 г. мы работали над изготовлением цифровых копий произведений русских классиков и параллельно переделывали ядро поиска, чтобы можно было использовать его в Интернете. Ядро технологий было готово к лету того года, оно работало на операционной системе Unix и годилось для общих задач поиска в Интернете», — фиксировал даты Илья Сегалович.
«Всемирная сеть развивалась, и в конце 1996 г. мы решили связать будущее Яndex с Интернетом… И получается, что и я стал одним из создателей известного “поисковика”, одного из лидеров Рунета. А ведь поначалу не понимал, что такие технологии будут востребованы, просто решил подзаработать», — как всегда искренен Сегалович.
Кстати, полученные за работу над академическими изданиями русских классиков $20 000 позволили вдвое увеличить команду программистов под проект, который вдохновенно вел Сегалович. На протяжении 1996 г. параллельно с изготовлением цифровых копий русской классики шла подготовка к запуску собственной поисковой машины в Интернете.
Под руководством Сегаловича был разработан алгоритм построения гипотез. Теперь морфологический разбор не привязывался к словарю. Отныне, если какого-либо слова в словаре не оказывалось, модель словоизменения строилась на основе поиска похожих на него слов.
Илья Сегалович: «В 1995 г. мы наконец подключились к Интернету, и всем сразу стало понятно, что надо для него что-то делать… Посмотрели на поиск Altavista и поняли, что надо делать вещи для Интернета».
Владельцы и руководители CompTek пришли к выводу, что развитие самой поисковой технологии важнее и интереснее, чем создание прикладных продуктов на базе поиска. В итоге было принято решение об использовании поискового приложения Яndex для Интернета.
18 октября 1996 г. на выставке Netcom’96 были представлены первые продукты серии «Яndex»: Яndex.Site — поиск по своему сайту, до сих пор установленный на сотнях серверов Рунета, и Яndex.Dict, морфологическое расширение запроса.
25 ноября приложение Яndex.Dict заработало на поисковике AltaVista.
«И уже к 1996 г., работая одновременно над Грибоедовым, мы дописали “Яндекс”, чтобы он работал в Сети», — вспоминал Сегалович.
В 1996 г. в мировую Сеть вышел поисковик «Рамблер», созданный группой инженеров Института биохимии и физиологии микроорганизмов РАН. Лидера, и затем главного конкурента «Яндекса» в Рунете.
До интернет-премьеры «Яндекса» оставался год.
Существующие к тому моменту в Рунете поисковики AltaVista (переводится как «взгляд сверху»; появился в декабре 1995 г.) и «Рамблер» (переводится как «бродяга»; работает в Сети с октября 1996 г.) искали по английскому принципу. Но в английском языке слова практически не склоняются. Русский и английский принадлежат к разным группам, к их анализу следует подходить по-разному. Русский язык принадлежит к группе флективных языков — различные словоформы получаются с помощью окончаний. Имя существительное, например, может встречаться в 12 различных формах: шесть падежей в единственном числе и еще шесть — во множественном. Некоторые существительные образуют новые словоформы с помощью изменения основы слова. Поэтому для поиска в русскоязычном тексте поисковые машины должны использовать сложные лемматизирующие алгоритмы, которые предполагают составление леммы слова, то есть перечень всех его словоформ, и учет всех этих словоформ в документе.
В английском падежей меньше, корни слов изменяются только в исключительных случаях, например в неправильных глаголах. Для анализа английских текстов поисковые машины используют стемминг, то есть анализ по основе слова. То есть англоязычным поисковикам, чтобы понять русскую речь, надо менять алгоритм поиска в соответствии с русской морфологией.
И другой подход к поиску в русскоязычном секторе Интернета не работает. Бессмысленная тупиковая самонадеянность западных поисковиков, которые пытались нахрапом захватить русскоязычный поиск в 1990-х гг. и даже в первой половине 2000-х, создавая русский интерфейс на основе английского языка, свидетельствует именно об этом.
Основатели «Яндекса» это понимали еще в середине 1990-х гг. Тогда же был разработан алгоритм построения гипотез. Отныне морфологический разбор перестал быть привязан к словарю — если какого-либо слова в словаре нет, то находятся наиболее похожие на него словарные слова и по ним строится модель словоизменения.
Елена Колмановская уточняет: «В Рунет “Яндекс” попал почти случайно. Мы ведь продавали “искалки”. Вот и сделали демоверсии на трех красивых примерах: Библии, полном собрании сочинений Пушкина и Рунете, тогда, в 1997 г., в сумме тянувшем на 4–5 ГБ. Пользователи были потрясены. Еще бы! Например, на слово “жених” выскакивало аж 48 ссылок!»
«К 1996 г. мы уже попали на улицу Губкина, в Институт генетики, в теплицу. Так что “Яндекс”, можно сказать, рождался в теплице». При этом поисковик, по словам Воложа, был рассчитан лишь на поиск покупателей собственно самой программы, а не пользователей этой программы. «Когда примерно в 1995–1996 гг. появился Интернет, мы поняли, что вот есть еще одно место, куда его применить, — поиск по сайту сделать… Мы думали, что будем жить от продажи своих технологий другим компаниям. Приходили, например, в “Рамблер”, поиск которого не знал русского языка, в “Инфоарт”… Мы говорили: хорошо бы соединить ваш прекрасный поиск с нашими замечательными лингвистическими технологиями. Но как-то они не загорелись… Предлагали выкупить нашу технологию за $15 000, потом за $50 000, никто не покупал… В попытке как-то еще разрекламировать эту технологию мы запустили сайт http://yandex.ru, на котором, собственно, демонстрировали — мы надеялись, что поиск по вебу это будет хорошая демонстрация, — что мы умеем на самом деле делать. Серьезно». Похоже, когда Воложу вспоминается начальный период становления «Яндекса», он сам удивляется своей тогдашней наивности и неумению понять перспективы. Это теперь все очевидно, а тогда надо было деньги зарабатывать.
Потенциальным покупателям программы объясняли преимущества поиска, основанного на принципах русской морфологии (строение слов в их различных грамматических формах), что позволяло искать ответ на запрос в несколько раз результативнее и точнее, чем у существующих тогда конкурентов. Но не судьба.
Получается, что до сентября 1997 г., когда «Яндекс» вошел в Интернет, чтобы там и остаться, отцы-основатели продолжали упорно продавать свой алгоритм поиска уже работающим в Интернете поисковикам.
Впрочем, ясности не будет и спустя несколько лет.
«Когда сюда в 2003 г. приезжали гугловские ребята, мы с Сегаловичем пытались и им продать эту идею. Но они сказали, что это неважно — то есть для России, может, и важно, но не в международном масштабе. А через несколько лет они сделали то же самое не только для России, но и для арабского мира — в общем, поняли, что идея все-таки хорошая». Нет, все-таки доля везения, доля случая в судьбе человека очень велика. И даже в судьбе самых удачливых и умных, умеющих анализировать данные, как, например, Аркадий Волож.
Это его откровение показывает следующее. Даже когда стало ясно, что технология морфологического поиска оказалась значительнее и важнее прикладных задач, ради решения которых эту технологию создавали, ее создатели отчетливо еще не осознавали, что они уцепили за бороду бога.
Как же велика доля случая, который сделал «Яндекс» первым русским поисковиком, использующим технологию поиска, основанную на принципах русской морфологии. И косвенным образом утвердившего в мировой Сети принцип морфологического поиска!
Данный текст является ознакомительным фрагментом.