Для интернета существует только 4% мировых языков. Остальные 96% мертвы Олег Нечай
Для интернета существует только 4% мировых языков. Остальные 96% мертвы
Олег Нечай
Опубликовано 08 декабря 2013
Для многих будет открытием, что жители Ближнего Востока предпочитают пользоваться для электронной переписки в интернете латинским алфавитом: сами слова они пишут по-арабски, но латинскими буквами. Более того, например, в Египте, многие вывески на магазинах тоже написаны по-арабски, но латиницей. Означает ли это, что древней арабской письменности пришёл конец?
Судя по новейшим исследованиям, арабскому языку и его традиционной письменности как раз ничего не угрожает — в отличие от нескольких тысяч других языков, которые просто не переживут цифровой век. Уже сегодня, по оценкам специалистов, целых 96% из более чем семи тысяч «живых» языков никак не используются в мобильных телефонах, планшетах и персональных компьютерах. Для Всемирной сети их уже не существует, так что интернет может стать для подавляющего большинства языков мира чем-то вроде глобальной катастрофы, которая стёрла с лица Земли всех динозавров.
Постепенные изменения, происходящие в тех или иных областях человеческой жизни, обычно описываются термином «эволюция», принятым в биологии. Однако когда учёные обсуждают эволюцию языков, терминология становится ещё более биологической: языки конкурируют за ареалы, порождают далёких родственников и умирают совсем как живые организмы.
В рамках научной деятельности ЮНЕСКО ведётся целый Атлас языков мира, находящихся под угрозой исчезновения. На момент написания статьи к этой категории отнесён 2 471 язык, с разной степенью уязвимости, причём используемая там классификация чрезвычайно близка к классификации вымирающих биологических видов. Учёные оценивают степень опасности по различным критериям, в том числе по числу носителей языка, для которых он родной. В октябре 2013 года была опубликована любопытная научная работа «Цифровая смерть языков», в которой известный венгерский математик и лингвист Андраш Корнай исследует, какие из мировых языков находятся под угрозой вымирания в интернете и в электронных устройствах.
По мнению Корная, об опасности, грозящей языкам в реальной жизни, свидетельствуют три признака. Во-первых, это утрата функциональности, в то время как какие-то другие языки вытесняют его из обихода в целых областях — например, в повседневном электронном общении, в электронной коммерции или официальном бизнесе. «Если этого нет в интернете, этого не существует».
Во-вторых, это потеря престижа, особенно у молодого поколения. И, наконец, утрата языковой компетентности, которая выражается в появлении поколения «полуносителей», которые всё ещё понимают старшее поколение, но сами выработали для себя серьёзно упрощённую версию грамматики.
Те же правила применимы и к интернету и цифровым устройствам, но если учёные давно привыкли наблюдать за упадком языков в реальном мире, то здесь возникает вопрос, возможно ли обратить процесс и сделать умирающие языки жизнеспособными в цифровом мире. Возможно ли полноценное онлайновое общение на таком языке и можно ли будет воспользоваться всем многообразием новых технологий с его помощью?
Задачей Корная было определить, как каждый из 7 776 мировых языков представлен в интернете. Во внимание принимались пять взаимосвязанных факторов: размер и демографический состав языкового сообщества, престиж языка, его идентификационная функция; уровень поддержки в программном обеспечении и представленность в Википедии.
Для этого он использовал различные методики. В частности, для определения степени представленности разных языков в общедоступных онлайновых текстах он измерял объём и число статей в Википедии на каждом из языков. Чтобы установить уровень поддержки языка в программном обеспечении, изучались как локализации интерфейса программ и системы проверки орфографии, так и просто его наличие в стандарте Unicode и других базах данных, позволяющих компьютерным устройствам автоматически опознавать разные языки.
Присутствие языка в Википедии стало одним из важнейших индикаторов его способности выжить в цифровой век. Поскольку успешность языка в цифровом пространстве означает его активное использование, было необходимо определить по меньшей мере одно популярное онлайновое сообщество, основанное на языке как основном средстве коммуникации. Таким сообществом могли быть доски объявлений, рассылки, группы Yahoo или Google, но, по мнению Корная, Википедия всегда становится одним из первых активных цифровых языковых сообществ, которое можно рассматривать в качестве раннего индикатора того факта, что какой-то язык действительно преодолевает «цифровой барьер». Причина в том, что дети, едва начав пользоваться компьютером не только для игр, практически сразу знакомятся с Википедией, предлагающей чрезвычайно комфортную среду для единомышленников. Онлайновая энциклопедия, составляемая пользователями, не только позволяет суммировать знания человечества, но и способна стать мощным инструментом продвижения языка и культуры в цифровом мире.
Чтобы язык получил полномочное представительство в интернете, ему жизненно необходима своя Википедия. Это подтверждает тот факт, что в настоящее время на стадии «инкубатора» находятся 533 языковых заявки, что более чем вдвое превышает число существующих Википедий. Желание обзавестить полноценной работающей Википедией настолько велико, что нередко приводит к манипуляциям с системой ранжирования, которая традиционно оценивает локализованные версии исключительно по числу входящих в них статей. Вопиющий пример таких манипуляций — это неизменно занимающая места в первых десятках энциклопедия на искусственном языке волапюк, который фактически не используется сегодня никем, кроме трёх десятков энтузиастов. Почти все её статьи написаны ботами и состоят из чрезвычайно «полезной» информации вроде «Китсеместа — деревня в Эстонии, расположена на широте 8°55? N и долготе 26°19? E». В настоящее время ведётся дискуссия о перемещении Википедии на волапюке обратно в инкубатор и о предотвращении появления в дальнейшем подобных псевдоэнциклопедий.
На основе полученных в ходе исследования данных все языки были поделены на пять категорий: процветающие, жизнеспособные, пограничные, наследие (онлайновое присутствие обусловлено исключительно работой учёных по их изучению) и мёртвые (вообще не присутствующие ни в онлайне, ни в цифровых устройствах).
Выводы, к которым пришёл Корнай, оказались совсем неутешительными. Только 170 языков, или всего 2% от всех существующих, можно отнести к категориям процветающих или жизнеспособных в онлайне. Ещё 140, или 1,7%, можно считать пограничными. Оставшиеся 96,3%, или свыше шести тысяч языков, — «цифровые покойники». Причём в сложившихся условиях, когда для «цифровой жизни» языка требуются огромная издательская инфраструктура и многочисленные технические средства, у этих «мертвецов» нет никакой перспективы воскрешения.
На иллюстрации показано соотношение числа носителей языка к объёму страниц на этом языке в Википедии (по логарифмической шкале).
Доминирование в интернете и в электронных устройствах небольшой группы мировых языков можно расценивать по-разному: как неизбежность, как возможность объединения народов или как способ держать подальше чужаков. Но это в любом случае утрата, ведь каждый язык отражает уникальный взгляд на мир и культурные установки языкового сообщества, сформировавшиеся способы восприятия окружающего мира, его философию и образ мышления. Каждый язык — это выражение культурного наследия народа, и он остаётся таковым даже после фактического исчезновения такой культуры под влиянием других, нередко враждебных. А с исчезновением языка мы навсегда утрачиваем незаменимую часть человеческой истории, культурного богатства и знаний.
К оглавлению