Невская И.А.

Компьютерные базы лингвистических данных как основа для сохранения и возрождения коренных тюркских языков Сибири

1. Современное понимание документации языков

Документация языков с использованием современных технических средств сбора и обработки лингвистических данных выделилась как отдельная лингвистическая дисциплина совсем недавно (Language documentation and description; Lehmann 1983; Lehmann: публикация в Интернете и т.д.). Она сейчас переживает период бурного расцвета: развиваются ее методы, уточняется понимание ее целей, отличных от целей дескриптивной лингвистики, которая стремится собрать корпус текстов, создать словарь и написать грамматику данного языка. Особое значение принимает документация языков в современный исторический период, когда в результате быстро идущих процессов глобализации под угрозой исчезновения оказались тысячи языков. Этой проблематике обращено внимание широкой общественности: созданы и создаются различные ассоциации умирающих языков, формируются фонды для их исследований, запускаются различные научные программы, направленные на их документацию. В частности, можно упомянуть программу DoBeS (Dokumentation Bedrohter Sprachen), финансируемую немецким негосударственным Фондом Фольксвагена (Volkswagen-Stiftung), а также программу документации исчезающих языков ELDP (Endangered Languages Documentation Programme) при Центре востоковедения и африкановедения (SOAS) Лондонского университета, финансируюмую частным фондом, основанным Хансом Раузингом (Hans Rausing).

Документации языков в ее современном понимании, ее методам и технологиям была посвящена прощедшая в сентябре 2004 года типологическая школа во Франкфуртском университете, организованная группой профессоров факультета языковых и культурологических дисциплин. В рамках типологической школы прошла международная конференция «Многоязыкий мир», которая представила первые результаты проектов, финансируемых в рамках вышеупомянутых программ, по документации ряда языков мира, находяшихся на грани исчезновения, а также теоретическое осмысление этих результатов в плане развития методов и технологий документации языков как отдельной лингвистической дисциплины.

Основная цель современной документации языков – это не просто фиксация языковой системы, а документация языка в различных условиях его естественного употребления, т.е. запись различных коммуникативных ситуаций в разнообразных социальных и культурных контекстах. Эта фиксация производится с помощью всех средств, которыми сейчас располагает исследователь: аудиозаписи, видеозаписи, рисунки и графики, записи текстов от руки. Все виды информации затем расшифровываются, аннотируются и анализируются, комментируются и архивируются. В качестве приоритетных рассматриваются следующие принципы языковой документации (Austin 2004):

  1. создание широкого разнообразия высококачественных лингвистических материалов как базы описания различных лингвистических феноменов;
  2. создание основы для ревитализации данного языка, даже если все остальные источники языкового материала уже утрачены;
  3. создание материалов, способствующих сохранению языка и его преподаванию.

Языковые данные документируются на различных носителях:

  1. видеозаписи;
  2. аудиозаписи;
  3. фотографии и рисунки;
  4. письменные записи (например: транскрипция, морфологический анализ, описание отдельных феноменов);
  5. метаданные (структурированные данные о собранных материалах).

Все вместе взятое и составляет языковую документацию, которая должна включать следующие компоненты:

  1. записи (видео или аудио) разговорного языка различного стиля и в различных контекстах его употребления с транскрипцией, переводом на метаязык и аннотацией;
  2. записи письменных текстов различного стиля и в различных контекстах их употребления с транскрипцией, переводом на метаязык и аннотацией;
  3. значимая социологическая и культурологическая информация;
  4. двуязычный словарь;
  5. словарь-тезаурус;
  6. учебно-методические материалы;
  7. грамматический очерк.

Методы документации и используемая терминология должны быть направлены на то, чтобы информация о данном языке была доступна для широкой аудитории: для лингвистов, членов коренного сообщества, учителей и учащихся.

Отметим одну интересную попытку практического применения результатов научной документации одного из исчезающих тюркских языков – мультимедийный караимский компакт-диск (Csato and Nathan 2004).

2. Основные принципы языковой документации

Качественная документация языка должна отвечать следующим параметрам (Woodbery 2004):

  1. собранный материал должен быть разнообразным: в нем должны быть представлены разные участники с различным социальным статусом и различными социальными ролями; различные каналы передачи информации при помощи языка, такие как устная речь, письменная речь, электронные письма; разные языковые жанры, включая диалогическую и монологическую речь, формальное и неформальное общение и т.п., различные диалекты и жаргоны;
  2. собранный материал должен быть большим по объему и статистически релевантным;
  3. документация должна быть преемственной, с привлечением как можно большого количества участников документиции, в первую очередь из представителей самого коренного сообщества, язык которого документируется; их следует обучить соответствующим методам факсации материала, снабдить необходимыми техническими средствами и всячески поощрять продолжение документации; тем самым, этот тип документации противопоставлен традиционной, проводимой отдельными лицами, как правило, лингвистами, не принадлежащими традиционному сообществу;
  4. документация должна быть «прозрачной»: данные должны быть обработаны и проиндексированы таким образом, чтобы ими можно было пользоваться и через 500 лет; все данные должны быть переведены на метаязык более широкого распространения, транскрипция должна опираться на описание фонетики и фонологии документируемого языка; предложенческие структуры должны быть выделены, – просто собрать тексты на аудио- или видеоносителях недостаточно для того, чтобы считать документацию законченной;
  5. документация должна быть архивирована таким образом, чтобы ее легко можно было сохранить и при необходимости перенести на новые носители информации, которые, как мы знаем, обновляются через каждые 5-10 лет; нужны полные и исчерпывающие метаданные о собранных лингвистических материалах;
  6. документация должна быть быть проведена в соответствии с этическими нормами научного исследования: исследователи должны уважать и соблюдать права интеллектуальной собственности; они должны проводить документацию совместно с тем сообществом, которое поставляет лингвистические данные; они должны уважать обычаи и идти навстречу пожеланиям данного народа.

3. Документация коренных тюркских языков Сибири

Документация исчезающих коренных языков Сибири является сейчас одной из важнейших задач современной сибирской лингвистики. Она является и неотложной задачей, так как десятки коренных языков Сибири находятся под угрозой исчезновения. Современная документация тюркских языков делает сейчас первые шаги. Можно упомянуть первую для Юга Сибири попытку создания машинного фонда шорского языка, предпринятую в 1990-1992 годах тюркологами Новокузнецкого государственного педагогического института (ныне Кузбасская государственная педагогическая академия) Есиповой А. В. и Невской И. А. и программистом Ивановым Д. Ю. Была создана программная среда для текстовой и словарной баз данных, начато их заполнение, создана программа автоматизированного морфологического анализа (Есипова и Невская 1994). Начавшиеся в стране экономические реформы, повлекшие катастрофические для науки последствия, отсутствие финансирования заставили прервать работу. Она была продолжена в 1998-2001 годах в рамках международного проекта по созданию компьютерной базы данных шорского языка, финансировавшегося РФФИ и Немецким научно-исследовательским обществом. Руководителем российской группы исследователей была Есипова А. В., руководителем немецкой группы был Марсель Эрдал, Невская И.А. была координатором работы российской и немецкой исследовательских групп.

Шорский язык, один из языков коренного населения Сибири, находится под угрозой исчезновения. Перед нами стояла задача создания электронного корпуса шорских текстов на основе ранее не публиковавшихся текстов и экспедиционных материалов. Предполагалось включить в него также опубликованные, но труднодоступные источники (например, миссионерская литература 19 в.) и образцы зарождающейся современной шорской литературы.

Созданный корпус шорских текстов предоставил ученым интересный с исторической и лингвистической точки зрения материал. На его базе были проведены разнообразные исследования в области грамматики, лексики и диалектологии шорского языка, а также социолингвистики и фольклористики.

В основном работы по проекту проводились согласно намеченным целям и задачам по заявленному плану, который предусматривал:

  1. создание технических предпосылок выполнения проекта;
  2. сбора текстовых материалов и подготовки базы для создания электронного корпуса шорских текстов;
  3. собственно работу по автоматизированному анализу и созданию электронного корпуса шорских текстов,
  4. лингвистическое описание созданного корпуса текстов.

Создание технических предпосылок выполнения проекта выражалось в следующем:

  • Для правильной передачи в электронной форме специальных знаков, необходимых для фиксации шорских текстов в кириллической и латинской транскрипции, был создан ряд шрифтов (Siberia_fix, Janalif.ttf).
  • На основе сканирования программой FineReader шорской кириллицы и латиницы созданы базы данных распознавания шорских текстов. В настоящее время уровень правильного распознавания шорской кириллицы составляет 99% при хорошем качестве сканируемого текста.
  • Для создания электронного корпуса текстов и их морфологического анализа была выбрана программа «Shoebox». Решающим фактором в пользу этого выбора послужила предоставляемая ею возможность автоматически производить морфологическое членение (сегментацию) словоформ, а также простота работы с нею. Однако программу необходимо было адаптировать к целям нашего проекта, в частности создать структуру шорской базы данных.
  • Создан пакет вспомогательных программ (на языке Turbo Pascal и Visual Basic) преобразования различных текстовых форматов и файлов в формат Shoebox для автоматизации работы в программах Shoebox и Word.
  • Для презентации шорских данных в Интернете таким образом, что пользователи различных операционных систем могли читать все специальные знаки, было применено кодирование по системе UNICODE. Были составлены таблицы для кодирования шорских знаков и осуществлена презентация текстов в Интернете.
  • Создан конвертер преобразования шорских текстов из программы Shoebox в HTML-формат.
  • Шорский WEB-сайт создан таким образом, чтобы информация одинаково отображалась в двух популярных браузерах Netscape Navigator и Internet Explorer.
  • Благодаря использованию программы «Shoebox» мы смогли одновременно с анализом включенных в электронный корпус шорских текстов создавать электронный лексикон (шорско-русско-английский словарь).

Параллельно с работой по созданию технических предпосылок собирались текстовые материалы, вследствие чего была подготовлена база для создания электронного корпуса шорских текстов. В этой связи следует упомянуть:

  • Дополнение библиографического справочника по шорской литературе, который подготавливается А. В. Есиповой и И. А. Невской.
  • Накопление корпуса текстов объемом 1700 стр., собранных в результате работы в архивах и библиотеках гг. Москвы, Новосибирска, Абакана, Новокузнецка, Таштагола, Мысков и включающих наряду с экспедиционными материалами, неопубликованными и опубликованными текстами также и САМИЗДАТовскую литературу (библиотечка книг и журналов, ксерокопии).
  • Фиксация различных форм устного народного творчества на аудиокассетах (в том числе 4 эпоса) во время командировки в места компактного проживания шорцев.

Собственно работа по автоматизированному морфологическому анализу текстов и созданию электронного корпуса шорских текстов включала в себя следующие виды работ.

  • Создание электронной базы текстов, которая составляет примерно 1/3 всего корпуса шорских текстов, которые удалось собрать в период работы по проекту. Часть текстов на шорском языке (в кириллице или латинской транслитерации) имеет морфологический анализ. Практически все тексты, включенные в электронный корпус шорских текстов, переведены на русский язык. На английский переведены все тексты, имеющие морфологический анализ. На немецкий язык переведено в частности сказание «Казыр Тоо», которое готовится к изданию в Германии.
  • Перечисленные выше источники послужили базой для интерактивного шорско-русско-английского глоссария к текстам. Созданный в процессе анализа текстов глоссарий содержит более 4300 лексических единиц. Он является самым большим из существующих шорско-русских словарей и не имеет аналога как трехъязычный словарь.

Проект имел не только научную, но и прикладную направленность, что связано с ревитализацией письменности и национального образования шорцев. Созданный участниками данного проекта электронный корпус шорских текстов, готовый морфологический анализ, содержащаяся в нем русская и английская терминология, шорско-русско-английский словарь и др. могут быть использованы (и уже используются) исследователями разных областей знаний, студентами и преподавателями отечественных и зарубежных вузов как в учебной так и в научной работе, для составления учебных пособий и учебников, подготовки теоретических курсов, проведения типологических и сравнительно-исторических исследований.

Работа по созданию электронного корпуса шорских текстов сопровождалась проведением разнообразных лингвистических исследований синхронной, диахронной и ареальной направленности, результаты которых были использованы в работе над совершенствованием морфологического анализа и в подготовке электронного лексикона. Созданный как глоссарий электронный лексикон шорского языка содержит 4300 лексических единиц и уже сейчас является самым большим из словарей исследуемого языка, который не имеет аналогов, как трехъязычный словарь.

Создан и пополняется WEB-сайт, который в прошлом году получил зеркало на сервере Франкфуртского университета. На сайте представлена информация о целях проекта и его исполнителях, приведен список литературы, включенной в электронный корпус текстов шорского языка, содержатся образцы шорской речи, шорско-русский и русско-шорский словарь. На WEB-сайте имеется историко-географическая справка об этнографии шорского народа, ремеслах и обычаях, образе жизни, религии. Там показаны образцы автоматизированного морфологического и лексического анализа шорских текстов, в частности рассказ А. И. Чудоякова «На охоте» и шорская народная сказка «Машморук», переведенные на русский и английский языки.

Несмотря на все эти несомненные достоинства, созданная база шорских данных не полностью отвечает тем требованиям, которые предъявляются сейчас к документации языков. Так, шорский фонд не содержит образцов разговорного языка, нет видеозаписей различных ситуаций общения, имеются только аудиозаписи нескольких эпических сказаний, но нет образцов разговорной речи, и т.д. Работу над пополнением шорского фонда нужно продолжать, тем более что все технические предпосылки для этого имеются.

Работу по документации языков Сибири нужно вести и в других сибирских регионах. Особое поле деятельности для тюркологов представляет сейчас Алтай, где в результате признания целого ряда лингвистических вариантов, на которых говорит тюркоязычное население Алтая, самостоятельными языками, а не диалектами алтайского литературного языка, особенно остро встала задача документации этих языков. Они долгое время оставались почти полностью вне поля зрения исследователей. Почти все они находятся под угрозой исчезновения или уже подошли к той черте, когда нужно предпринимать меры по их ревитализации. Положение усугубляется тем, что все они являются бесписьменными. В то же время подъем национального самосознания данных коренных этносов, их стремление сохранить свой язык и свою культуру для потомков означают, что имеется социальный заказ на документацию этих языков, что эта документация будет иметь не только чисто научное, но и огромное социальное значение.

Первой попыткой современной научной документации одного из тюркских языков Алтая является международный проект по чалканскому языку. Он также ведется на базе Франкфуртского университета с немецкой стороны, раководителем немецкой группы исследователей является М. Эрдал. В качестве российского партнера выступает Институт филологии СО РАН, руководителем российской группы является Озонова А. Н., а координатором – И. А. Невская. Проект во многом следует шорскому образцу, но использует современный вариант программы ведения лингвистических баз данных Toolbox.

Литература

  1. Есипова, А. В. и Невская, И. А. Машинный фонд шорского языка и создание научно-методической базы для изучения родного языка шорцами // Шорский сборник. Кемерово: Кемеровский ГУ, 1994. С. 255-259.
  2. Austin, P. K. Language documentation and your data. A lecture held during the Summer School „Language documentation“ at Frankfurt University, 2004.
  3. Csato, E. and Nathan, D. Multimedia and documentation of endangered languages // Language documentation and description. Working papers. Issue 1. Ed. : P. Austin. London: London University, 2004.
  4. Language documentation and description. Working papers. Issue 1. Ed. : P. Austin. London: London University, 2004.
  5. Lehmann, Ch. Et al. Linguistic documentation. Terminological and bibliographical database. http://www.uni-erfurt.de/sprachwissenschaft/proxy.php?file=lido/servlet/Lido_Servl.
  6. Lehmann, Ch. Directions for interlinear morphemic translation // Folia Linguistica, 16, 1983. 193-224.
  7. Samarin. W. J. Field linguistics: A guide to linguistic field work. New York: Holt, Rinehart and Winston. 1966.
  8. Woodbury, T. Defining documentary lingusitics // Language documentation and description. Working papers. Issue 1. Ed.: P. Austin. London: London University, 2004.
Google
WWW lingsib.iea.ras.ru
© ИЭА РАН, 2005 г.
Сайт создан при поддержке Бюро ЮНЕСКО в Москве