Понятийный словарь
Понятийный словарь
Антиспам поисковый — набор алгоритмов, позволяющих отделить спам от качественных веб-страниц. С помощью алгоритмов антиспама «Яндекс» проверяет все сайты, которые индексирует. А уже проиндексированные страницы регулярно перепроверяет, чтобы убедиться, что на них не появился спам. Страницы, содержащие спам, могут быть понижены при ранжировании или исключены из поиска. Об этом говорится в лицензии на использование поисковой системы «Яндекс».
Архитектура продукта — структура программы или вычислительной системы, которая включает программные компоненты, видимые снаружи свойства этих компонентов, а также отношения между ними.
Асессоры — специалисты, оценивающие релевантность страницы тому запросу, по которому она была представлена в результатах поиска; основная задача асессора — улучшение качества выдачи; асессоры, оценивая сайт, смотрят и на его содержание, и на раскрытие тематики, и на удобство использования ресурса; асессоры не только оценивают релевантность документа запросу, но и помогают настраивать алгоритмы поисковой системы.
Бета-тестирование — распространение новой версии (бета-версии) продукта или сервиса, платформы среди ограниченного числа пользователей.
Браузер — программное обеспечение для просмотра сайтов, то есть для запроса веб-страниц (преимущественно из Сети), их обработки, вывода и перехода от одной страницы к другой.
Движок — выделенная часть программного кода для реализации конкретной прикладной задачи — программа, часть программы, комплекс программ или библиотека, в зависимости от задачи и реализации. Использование готового движка при разработке программы, сайта или другого продукта сокращает время разработки, позволяет уделить больше времени разработке других подсистем.
Дистрибутив (дистрибутивная копия) — копия программного продукта, предназначенная для распространения (бесплатного или платного) и установки пользователем. В большинстве случаев — установочная архивированная версия программного продукта.
Детектировать (от англ. detect) — замечать, открывать, обнаруживать, раскрывать.
Интерфейс — часть программы, взаимодействующая с пользователем, посредством него приложение получает доступ к операционной системе и другим сервисам.
Код — написанный человеком текст компьютерной программы на каком-либо языке программирования.
Колдунщики — информационные блоки в результатах поиска с ответами от сервисов «Яндекса».
«Матрикснет» (MatrixNet) — метод машинного обучения, с помощью которого строится формула ранжирования поиска «Яндекса», которую теперь можно настраивать отдельно для достаточно узких классов запросов. Например, локализовать поиск для региональных пользователей.
Машинное обучение — попытка научить компьютер решать задачи, которые легко даются человеку, но формализовать путь их решения сложно. В результате машинного обучения компьютер может демонстрировать поведение, которое в него не было явно заложено.
Морфология (от греч. morhpe — форма, logos — учение) — изучает слова как части речи с точки зрения их грамматических свойств, это наука о правилах словоизменения и словообразования. Основа морфологии: корень, суффикс, приставка, окончание (или флексия — самая большая головная боль разработчиков русскоязычных поисковиков), которое способно меняться в зависимости от рода, числа и падежа. Морфология русского языка еще в 1970-х гг. была исчерпывающе описана Андреем Анатольевичем Зализняком, будущим академиком Российской академии наук. Результатом этого научного прорыва стали базовые труды для русской морфологии — «Русское именное словоизменение» (1967) и особенно «Грамматический словарь русского языка» (1977), в котором для 100 000 слов русского языка указана точная модель словоизменения и предложена классификация самих этих моделей. Этот словарь стал основой для разработки компьютерных программ автоматического морфологического анализа, в том числе в информационном поиске, в машинном переводе. Именно этот труд лег в основу алгоритма поиска «Яндекса» и других поисковиков, основанного на морфологическом принципе опознавания слов.
Омонимия — совпадение слов (словоформ) с разным лексическим значением.
Паук (робот-паук) — регулярно обходит документы по заданному маршруту; если сайт на месте, то есть работает и доступен, паук выкачивает запланированные в маршруте документы. Он определяет тип скачанного документа (.html, pdf, swf и т. п.), кодировку и язык, а затем отправляет данные в хранилище.
Псевдооптимизация — попытка обмана поисковой системы и манипулирования ее результатами с целью завышения позиции сайтов (страниц) в результатах поиска; использование SEO-ссылок, которые на коммерческой основе размещаются на сторонних ресурсах (количество ссылок на страницу и их текст учитываются при ранжировании). Спрос на SEO-ссылки стимулирует наводнение Интернета сотнями тысяч бесполезных сайтов, забитых заимствованным или бессмысленным контентом.
Поиск — состоит из двух больших частей: первая — когда поисковик ищет различные документы в Интернете и составляет поисковый индекс; вторая — когда ищется ответ на конкретный запрос пользователя в уже подготовленной поисковой базе. Пользовательские запросы сначала попадают в компьютерную систему «метапоиск», который обрабатывает каждый запрос в реальном времени — выясняет все необходимые данные про запрос (из какого региона он был задан, к какому классу относится и т. п.), проводит лингвистическую обработку; затем метапоиск проверяет, формировались ли в последнее время результаты поиска для этого запроса, потому что результаты поиска по часто задаваемым запросам некоторое время хранятся в памяти метапоиска, а не формируются каждый раз заново; если вновь пришедший запрос оказался популярным, метапоиск покажет пользователю заранее сохраненные результаты. Если же ответа в памяти нет, то метапоиск передает запрос на сервера другой компьютерной системы — «базового поиска». На базовом поиске хранится слепок Интернета, по которому ищет «Яндекс», — поисковая база. Она разбита на части, которые хранятся на разных серверах — искать ответ одновременно по нескольким частям базы данных быстрее, чем по всей базе целиком. Кроме того, у каждого сервера есть несколько копий. Это позволяет распределять нагрузку и не терять данные — если один из серверов не сможет своевременно ответить, информация все равно найдется на дублирующих серверах. Из тысяч серверов базового поиска метапоиск выбирает наименее загруженные — таким образом, чтобы вместе они содержали целую поисковую базу. Каждый из серверов отдает список документов, в которых есть слова из запроса, обратно в метапоиск. Там они объединяются, ранжируются с помощью технологии «Матрикснет» и попадают на страницу результатов поиска. Благодаря такой организации поиска «Яндекс» может отвечать пользователю за доли секунды.
Поисковая база — слепок Интернета, по которому ищет поисковик; поисковый индекс, данные о типе документов, кодировке, языке и сохраненные копии документов вместе составляют поисковую базу; обновляется постоянно, но, чтобы это обновление стало доступно пользователям, ее нужно перенести на «базовый поиск». Обновление поисковой базы из хранилища основного робота попадает в поиск «пакетами» — раз в несколько дней. Этот процесс создает дополнительную нагрузку на сервера, поэтому производится ночью, когда к «Яндексу» обращается на порядок меньше пользователей. Сначала новые части базы помещаются рядом с такими же частями из прошлого обхода. Затем они проверяются по целому ряду факторов, чтобы обновление не ухудшило качество поиска. Если проверка прошла успешно, новая часть базы заменяет собой старую.
Поисковый индекс — база данных, по которым ищет поисковая машина; поиск с помощью индекса ускоряет процесс ответа пользователю, как, например, предметный указатель в книге помогает быстрее найти нужное слово; размеры предметного индекса огромны.
Поисковые подсказки — список запросов, один из которых, скорее всего, хотел задать пользователь. Появляются под поисковой строкой при вводе запроса. 1 млрд — примерно столько раз в день «Яндекс» подсказывает запросы пользователям.
Поисковый робот — специальная компьютерная система регулярно обходит Интернет, выкачивает документы и обрабатывает их; создается своего рода слепок Интернета, который хранится на серверах поисковика и обновляется при каждом новом обходе. Например, у «Яндекса» два поисковых робота — основной и быстрый (он называется Orange). Основной робот индексирует Интернет в целом, а Orange в режиме реального времени отвечает за то, чтобы в поиске можно было найти самые свежие документы, которые появились минуты или даже секунды назад. У каждого робота есть список адресов документов, которые нужно проиндексировать.
Принадлежность сайта к тому или иному региону определяется по многим признакам — в том числе по указанным на нем контактам, ip-адресу сайта, региону, которому посвящена большая часть информации на ресурсе, и т. д.
Провайдер — организация, предоставляющая услуги доступа к Интернету и иные связанные с Интернетом услуги.
Программа-планировщик — выстраивает маршрут, очередность обхода документов. При этом планировщик учитывает важные для поисковой системы характеристики сайтов, такие как, например, цитируемость или частота обновления документов. После создания маршрута планировщик отдает его другой части поискового робота — пауку.
Ранжирование — упорядочивание результатов поиска в соответствии с запросом пользователя. Именно ранжирование определяет качество поиска — то есть качество ответа на вопрос, заданный в поисковой строке.
Результаты поиска — ссылки на различные веб-страницы, которые пользователь видит в ответ на свой запрос к «Яндексу».
Саджест — поисковая подсказка.
Сигнатура — характерные признаки атаки или вируса, используемые для их обнаружения.
Сниппет — краткая структура найденного сайта в поисковой выдаче.
Спам — сайты, веб-страницы или элементы страниц, которые создают для обмана поисковых систем и манипулирования результатами поиска. Например, чтобы сайт появлялся в результатах поиска как можно чаще, на странице ресурса размещают мелкий, нечитаемый текст с популярными запросами. Посетители его не замечают, зато поисковая система видит и индексирует. К распространенным видам спама можно отнести текстовый спам (невидимый, нечитаемый или бессмысленный текст), а также дорвеи (от англ. doorway — дверной проем, вход) — промежуточные странички, которые перенаправляют посетителей на целевой сайт, который нужно раскрутить. Спам — это также анонимные незапрошенные массовые рассылки электронной почты, то есть электронный эквивалент бумажной рекламной корреспонденции, засоряющей обычные почтовые ящики. Спам чаще всего используется для рекламы товаров и услуг. Спамеры рассылают большое количество рекламных сообщений и наживаются на тех, кто на них отвечает. Кроме того, злоумышленники используют спам для проведения фишинговых атак и распространения вредоносных программ.
Утилита — компьютерная программа, расширяющая стандартные возможности оборудования и операционных систем, выполняющая узкий круг специфических задач.
Уязвимость — используется для обозначения недостатка в системе, используя который можно нарушить ее целостность и вызвать неправильную работу.
BIOS — часть программного обеспечения, входящего в состав компьютера. Отвечает за первоначальное тестирование и загрузку компьютера.
Cliсkunder-реклама — неожиданно для пользователя открывает рекламную страницу при любом клике по сайту, в том числе — по ссылкам.
Popunder-баннеры — перемещаются по экрану вслед за прокруткой страницы и закрывают ее содержание, а при попытке закрытия такого баннера открывается новое окно.
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКДанный текст является ознакомительным фрагментом.
Читайте также
Словарь данных и каталоги
Словарь данных и каталоги Описания компонентов всех физических и логических файлов содержатся на каждой AS/400 в одном месте. В терминах «родного» интерфейса это место называется словарем данных. Словарь данных — это специальный объект OS/400, который обслуживается
Приложение № 4 Словарь терминов
Приложение № 4 Словарь терминов Blogger relations – набор правил, определяющий характер отношений между блоггерами и отношений между блоггерами и компаниями.RSS (really simple syndication) – способ передачи содержимого блога на сторонние сайты. Читатель блога может подписаться на
2.2.1. Словарь Зализняка
2.2.1. Словарь Зализняка Одним из широкодоступных (и активно используемых) русскоязычных ЛБД является электронный вариант фундаментального «Грамматического словаря русского языка» А.А.Зализняка. Текст словаря был перенесен на машинные носители в начале 80-х годов. С тех
Словарь
Словарь Numerics 10 Base2 – спецификация монополосной сети Ethernet со скоростью передачи данных 10 Мбит/с на 50-омном тонком коаксиальном кабеле. Спецификация 10 Base2, являющаяся частью стандарта IEEE 802.3, устанавливает предельное значение протяженности одного сегмента до 185 метров. См.
3.9. Словарь синонимов
3.9. Словарь синонимов Редактирование текстового документа – это не только исправление орфографических ошибок в словах и правильное построение предложений. Очень важным является также читаемость текста. Если в одном предложении вы три раза употребили одно и то же слово,
Словарь терминов
Словарь терминов CRC-карточки, CRC cards. CRC - Class/Responsibilities/Collaborators, Класс/Ответственности/Сотрудники; простое, но достаточно эффективное средство мозгового штурма при выявлении ключевых абстракций и механизмов. абстрактная операция, abstract operation. Объявленная, но не реализованная
Словарь (Map)
Словарь (Map) map - ассоциативный контейнер, который поддерживает уникальные ключи (не содержит ключи с одинаковыми значениями) и обеспечивает быстрый поиск значений другого типа T, связанных с ключами.template ‹class Key, class T, class Compare = less‹Key›, template ‹class U› class Allocator = allocator›class map
Словарь с дубликатами (Multimар)
Словарь с дубликатами (Multimар) multimар - ассоциативный контейнер, который поддерживает равные ключи (возможно, содержит множественные копии того же самого значения ключа) и обеспечивает быстрый поиск значений другого типа T, связанных с ключами.template ‹class Key, class T, class Compare =
Глава 7. Словарь
Глава 7. Словарь А Альбомная ориентация LandscapeГоризонтальное расположение листа
Lingvo – электронный словарь
Lingvo – электронный словарь (http://www.abbyy.ru)Приятно, конечно иметь дело с таким талантливым переводчиком, как PROMT. Взял целую страницу, скормил программке и наслаждайся текстом на родном языке. На, а если нужно перевести только одно слово или словосочетание? Покупать дорогущую
Приложение Словарь микростокового фотографа
Приложение Словарь микростокового фотографа Приведем некоторые сленговые понятия, которые могут встретиться начинающему микростоковому фотографу в различных статьях, написанных коллегами и размещенных на интернет-ресурсах, в данной книге или упомянутых на
Словарь компьютерных терминов
Словарь компьютерных терминов А abend (abnormal end) — аварийное завершение работы программы, завершение работы программы с ошибкой, синоним этого термина — crashAC (Accumulator) — аккумуляторAC (Alternating Current) — переменный токaccept — соглашаться, приниматьactive — активный,
Словарь как орудие атаки
Словарь как орудие атаки Когда кто-нибудь получает ваш пароль, он может вторгнутся в вашу систему. В большинстве случаев, вы даже не узнаете, что произошло что-то плохое.У юного хакера, которого я назову Иваном Питерсом, есть цель – получить исходный код для новой
Словарь терминов
Словарь терминов Там, где это возможно, ХР использует общеупотребительные, общепринятые и широко распространенные термины. Если некоторые используемые в рамках ХР концепции в значительной степени отличаются от концепций в других областях знаний, отличие