Глава 5 Web-cказочники из Яndex
Глава 5
Web-cказочники из Яndex
1997–1999 гг. стали настоящим технологическим прорывом для команды Воложа, в том числе и потому, что тогда не стоял вопрос выживания — они зарабатывали «на железе». Но поначалу о завоевании России и мира не было и речи.
По словам Аркадия Воложа, в «Яндексе» «до сих пор хранится плата с 386-м процессором, на которой мы запускались в 1997 г.».
1997 г. разделился на две части. Первая часть — доинтернетовская — была отмечена созданием двух новых продуктов: Яndex.CD, который помогал найти нужный документ на CD-ROM (компакт-диске), и Яndex.Lib — полнофункциональная библиотека для встраивания в различные приложения и базы данных. Продуктов забытых, но сущностно важных в подготовке к началу новой эпохи, в строительстве технологической базы.
Дальше важная деталь. Для облегчения продаж «Яндекса» в качестве примера использовались три демоверсии, показывающие возможности поисковика: Библия, полное собрание сочинений Пушкина и, собственно, тогдашний Рунет.
Последнее направление (как тогда казалось, не самое важное в маркетинге) и определило судьбу яндексоидов и русской поисковой технологии в исполнении Воложа и Ко.
В 1997 г. Волож решился на крупные инвестиции в создание поисковой машины. На $10 000 были закуплены три сервера с жесткими дисками по 1 ГБ. Вскоре на них оказался записанным практически весь известный тогда Рунет.
«Мы решили запустить свой поиск на собственной страничке в Интернете, и этот сервис вдруг оказался кому-то нужен… Так в сентябре 1997 г. появился http://yandex.ru, а в 1998 г. мы уже продали на нем первый контекстный баннер», — впоследствии прокомментирует Волож выход проекта в публичное пространство. Факт очевиден. От коммерческого старта и до первого заказа пройдет почти год. И это лишнее подтверждение того, что «Яндекс» — никакой не венчурный проект. В отношении «Яндекса» — это притянутый за уши термин, поскольку на начальном этапе работы над проектом ни цель, ни назначение, ни модель монетизации его создателям не были ясны, как, впрочем, не был известен и термин «венчурный».
Индексированная копия Рунета образца осени 1997 г. поместилась на одном SCSI-диске на сервере под столом одного из первых разработчиков «Яндекса» Дмитрия Тейблюма. Тогда паук-поисковик «Яндекса» индексировал Рунет в еженедельном режиме.
Кстати, полезно понимать, что даже самая полная база одной поисковой системы охватывает около 40–50 % открытой части веба, остальная часть мировой Сети скрыта или недоступна. Именно по этой причине «Яндекс» в конце страницы выдачи предлагает пользователю сделать запрос и к другим поисковым системам. Единственный, кстати, из поисковых систем.
«Мы сделали “Яндекс” с простым намерением продемонстрировать наши революционные технологии», — такими словами Волож отдает дань великому случаю в интернет-судьбе «Яндекса». Планов завоевать мир пока еще не было.
«Яндекс» пришел в Интернет на полгода позже «Рамблера». Однажды Волож выскажется на этот счет: «Тогда в головах у людей мы были вовсе не первыми. И даже после того, как мы догнали “Рамблер” по объективным показателям, нам понадобился еще почти год, чтобы поменялась картина в головах у пользователей и мы стали субъективно первыми».
На две недели отстал «Яндекс» и от Google, который 14 сентября 1997 г. (по другой версии, 15-го) зарегистрировал домен http://google.com.
Кстати, в 1997 г. Воложу и Сегаловичу исполнилось по 33 года — первому 11 февраля, второму 13 сентября. Одноклассникам захотелось год мистического духовного взросления отметить выдающимся событием. У них получилось.
23 сентября 1997 г. на выставке Softool впервые была представлена поисковая система Яndex как самостоятельный проект. От этой даты принято отсчитывать возраст поисковика, хотя проект получил юридическое оформление в качестве самостоятельной компании лишь в марте 2000 г. Презентация поисковой машины Яndex-Web состоялась в четверг, 25 сентября в 16:00, на выставке Softool на стенде Д17 (разумеется, на стенде компании CompTek).
Процитирую распространенный тогда на выставке пресс-релиз:
Запущена новая поисковая машина Яndex-Web
23 сентября, Москва — фирма CompTek сообщает об открытии новой поисковой машины http://yandex.ru. Поисковая машина использует механизм Яndex-Web, областью поиска являются Web-сервера доменов. su и. ru, а также иностранные русскоязычные сервера, в том числе — стран СНГ. Яndex-Web представляет собой естественное развитие программных продуктов серии Яndex (Яndex.Site, Яndex.CD, Яndex.Dict, Яndex.Lib). Как и все Яndex-системы, Яndex-Web является полнотекстовой поисковой системой с учетом морфологии русского и английского языков. В отличие от популярной морфологической надстройки к поисковой системе AltaVista (http://www.comptek.ru/alta.html), Яndex-Web является полностью оригинальной разработкой CompTek. В настоящий момент робот (сетевой паук) обходит 5000 серверов (около 4 ГБ текстов) каждую неделю, список серверов пополняется. При индексировании проверяется уникальность документов — это значит, что, если документ существует в нескольких кодировках и/или на нескольких зеркалах, в списке найденного он будет указан один раз (и, соответственно, один раз учтен в статистике). Алгоритмы морфологического разбора, основанные на грамматическом словаре, умеют нормализовать слова, то есть находить их начальную форму. Для неизвестных Яndex слов строится гипотетическая словарная статья, позволяющая обрабатывать (анализировать и синтезировать) такие слова аналогично известным. Язык запросов (как и в других продуктах Яndex), помимо стандартных логических операторов (И, ИЛИ), включает оператор исключения (И НЕ), а также позволяет осуществлять поиск внутри абзаца, внутри документа, в заголовках и других полях, а также с указанием расстояния между словами. В дополнение к обычной практике Яndex — нормализации слов при индексации и поиске — реализован также запрос по точной словоформе. Язык запросов более подробно описан на странице http://yandex.ru/ya_detail.html. Найденные документы отсортированы по релевантности, которая учитывает не только «контрастность» слова, то есть его относительную частоту для данного документа, но и расстояние между словами и положение слова в документе. Яndex-Web при индексировании запоминает позицию слова в документе, что дает возможность не только искать «с расстоянием», но и выделить (подсветить) слова, найденные в тексте. Если документы были изменены после индексирования, выдается соответствующее предупреждение.
Обратите внимание: компания CompTek названа фирмой — вероятно, ее руководителям тогда казалось, что так солиднее.
Проект представляли трое — Аркадий Волож (неизменно в центре, как обычно, в мешковатом пиджаке), Илья Сегалович (в галстуке, улыбающийся своей искрометной харизматической улыбкой), Елена Колмановская (задумчивая, хотя и довольная).
«Это было маленькое приложение, там было всего 4 ГБ всех текстов, которые мы смогли наиндексировать (2–5 млн документов тогдашнего Рунета. — В.Д.)… Но в сентябре 1997 г. вдруг выяснилось, что это не просто демонстрашка, а целый сервис, народ пошел туда, стали много искать, заваливать нас запросами», — фиксирует Волож прошлое.
Но еще не пришло время отделения от матки, компании CompTek, которая всего за несколько лет под руководством Аркадия Воложа с насмешливым взглядом, эдакого авторитарного лидера с манерами демократа, стала крупнейшим дистрибьютором Cisco Systems в России и СНГ с объемом поставок сетевого и телекоммуникационного оборудования в десятки миллионов долларов в год. Потому что в России компьютерная техника была наиболее ходовым (или даже практически единственным на тот момент) серьезным коммерческим продуктом на рынке информационных технологий.
При этом Волож понимал, что единственным конкурентным преимуществом и коммерческим результатом проекта Яndex могут стать только востребованные прорывные технологии. На тот момент в поиске.
Теперь бы разобраться, что же такое поиск в Интернете. Разумеется, всего лишь на пользовательском уровне. Потому что людей, понимающих суть этого процесса, на планете немного. И я сам на это не претендую.
Я, например, даже не догадывался до начала работы над книгой о Воложе и «Яндексе» (можно в другой последовательности), что между событием, произошедшим в Сети, и его отображением в поисковой базе всегда есть временной промежуток, всегда есть небольшая дистанция, в которую можно упрятать вечность или ее отсутствие. Потому что «Яндекс» ищет ответы на вопросы пользователей не в Сети, а в ее слепке, в муляже, созданном запущенными в Сеть роботами-пауками. И в этом смысле «Яндекс» (как и все поисковики) является творцом гигантской, почти необозримой виртуальной вселенной.
Конечно, технология за годы существования поисковых систем сильно изменилась, но все же основы были заложены тогда, на заре Интернета. Это было счастливое время, когда зарождалось многое привычное сегодня.
Разумеется, лучше всех о своих поисковых технологиях рассказывает сам «Яндекс» (http://company.yandex.ru/technologies/searchindex/index.xml).
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКДанный текст является ознакомительным фрагментом.
Читайте также
Глава 17 DNS
Глава 17 DNS DNS – это Доменная Система Имен (Domain Name System). DNS преобразует символические имена машин в IP-адреса и наоборот – из IP-адреса в символическое имя. Для чего это нужно? Во-первых, человеку легче запомнить осмысленное имя – типа vasya.ru чем 195.66.195.42, а для компьютера проще
Глава 20 FTP
Глава 20 FTP Эта глава посвящена протоколу FTP, настройке сервера FTP, проблемам конфигурации и безопасности сервера.Протокол FTPПротокол FTP (File Transfer Protocol, протокол передачи файлов) предназначен для передачи файлов в сети Интернет. Этот протокол был разработан на заре эры
10.1. Яndex.Server для вашего сайта
10.1. Яndex.Server для вашего сайта Поиск в Интернете с помощью Яндекса или иного поисковика, безусловно, хорош. И находит много, и работает быстро. Но зачастую проблема заключается не в том, чтобы искать по всему, допустим, Рунету, а в том, чтобы найти необходимую информацию на
10.1.1. Настраиваем Яndex.Server
10.1.1. Настраиваем Яndex.Server Программу можно разделить на две основные и две вспомогательные подсистемы:? основные — подсистема индексации и подсистема поиска. Индексатор обеспечивает анализ документов и сохранение информации о них в индексных файлах. Поисковый сервер
10.1.4. Запускаем Яndex.Server
10.1.4. Запускаем Яndex.Server Определив, что должно присутствовать в конфигурационном файле, и настроив его, можно запускать программу. В зависимости от операционной системы команда запуска будет выглядеть различно, но мы рассматриваем вариант работы в OS Windows.Яndex.Server в старших
ГЛАВА 13
ГЛАВА 13 Регистрация в системеВо время регистрации в системе, еще до появления командной строки происходит ряд событий, связанных с процессом регистрации. После ввода регистрационного имени и пароля система проверяет, допустима ли регистрация данного пользователя. С
ГЛАВА 14
ГЛАВА 14 Переменные среды и интерпретатора shellЧтобы продуктивно работать с интерпретатором shell, нужно уметь управлять переменными этого интерпретатора. Переменными интерпретатора shell являются наименования, которым присваиваются значения. В качестве значений может
ГЛАВА 15
ГЛАВА 15 Использование кавычекВ главе 14 обсуждались методы работы с переменными и операции подстановки. Чаще всего ошибки в использовании кавычек возникают при выполнении подстановок переменных в сценариях. Кавычки оказывают существенное влияние на формирование
ГЛАВА 16
ГЛАВА 16 Понятие о shell–сценарииВ shell–сценарий может включаться одна или несколько команд; здесь нет общепринятых правил. Зачем же создавать целый сценарий ради двух–трех команд? Все зависит от предпочтений пользователя.В этой главе рассматриваются следующие
ГЛАВА 22
ГЛАВА 22 Создание экранного вводаКогда речь идет об экранном вводе, или вводе данных, подразумевают ввод информации (в нашем случае с помощью клавиатуры), а затем — проверку достоверности введенных данных. Если данные удовлетворяют неким критериям, они
ГЛАВА 23
ГЛАВА 23 Отладка сценариевОдной из самых сложных задач при создании shell–сценариев является их отладка. Желательно, чтобы пользователь, выполняющий эту задачу, получил консультации на данном этапе. Чтобы избежать распространенных ошибок, достаточно следовать указанному
ГЛАВА 24
ГЛАВА 24 Встроенные команды интерпретатора shellВ предыдущих главах нам уже встречались конструкции, встроенные в интерпретатор shell Напомним, что речь идет о командах, которые не находятся в каталоге /bin или usr/bin, а встроены в интерпретатор Bourne shell. Скорость выполнения
ГЛАВА 25
ГЛАВА 25 Дальнейшее изучение конструкции "документ здесь"При рассмотрении стандартного потока ввода и вывода, а также циклов while уже обсуждалась конструкция "документ здесь". Описывались методика пересылки электронной почты и способы формирования экранов меню, но
ГЛАВА 26
ГЛАВА 26 Утилиты интерпретатора shellВ этой главе рассматриваются следующие темы: • создание датируемых имен файлов и временных файлов; • сигналы; • команда trap и способы перехвата сигналов; • команда eval; • команда
ГЛАВА 17
ГЛАВА 17 Глава, в которой Алёша просыпается у себя дома, рассказывает о своих приключениях и мечтает попасть в компьютерную столицу. Как чудесно, когда утром светит солнце, из окна слышна капель и звонкие голоса синиц, а идти в школу не надо!Вос-кре-сень-е!Вообще-то котята