А.В. Есипова, И.А. Невская

Проект «Шорика»

См. также: Есипова А.В. Проект «Шорика»: послепроектная деятельность в области развития информационных технологий в сфере образования

Проект «Шорика»: «Создание электронного корпуса шорских текстов (литературных и образцов устной речи) с целью сохранения материалов исчезающего языка, и его лингвистическое описание» выполнялся на базе Новокузнецкого государственного педагогического института и Франкфуртского университета в рамках программы международного сотрудничества между Немецким научно-исследовательским обществом и Российским фондом фундаментальных исследований.

Участники проекта

Российская группа исследователей: к.ф.н. А.В. Есипова – руководитель, д.ф.н. И.А. Невская, к.и.н. Д.А. Функ, к.ф.н. Л.Н. Арбачакова, к.ф.н. Г.В. Косточаков, к.ф.н. Н.И. Михайлова, к.ф.н. О.А. Соседко, Н.М. Стукова

Немецкая группа исследователей: Prof. Dr. Marcel Erdal - руководитель, Dr. habil. Claus Schönig, Hans Nugteren

Цели и задачи проекта

Проект направлен на решение фундаментальной проблемы лингвистической документации данных одного из малоизученных тюркских языков коренных народов Южной Сибири, находящихся под угрозой исчезновения. Он предусматривает проведение комплексных теоретических исследований в области словообразования, морфологии, синтаксиса и истории шорского языка, а также фольклористики и этнологии, могущих прояснить историю возникновения тюркских языков енисейской группы и пути развития всей семьи тюркских языков.

Создание электронного корпуса текстов недостаточно изученного тюркского языка составляет важное направление в рамках указанной проблемы. Предметом нашего исследования является шорский язык, один из языков коренного населения Сибири, который находится под угрозой исчезновения. Его документация (пока это еще возможно) является неотложной задачей. Фиксация данных шорского языка необходима, чтобы, с одной стороны, сделать его доступным для научной обработки, и, с другой стороны, сохранить его для шорского народа (подготовка учителей шорского языка и литературы, народное образование).

Перед нами стояла конкретная задача создания электронного корпуса шорских текстов на основе ранее не публиковавшихся текстов и экспедиционных материалов. Предполагалось включить в него также опубликованные, но труднодоступные источники (например, миссионерская литература 19 в.) и образцы зарождающейся современной шорской литературы. Эта задача выполнена. Созданный корпус шорских текстов предоставил ученым интересный с исторической и лингвистической точки зрения материал. На его базе были проведены разнообразные исследования в области грамматики, лексики и диалектологии шорского языка, а также социолингвистики и фольклористики. Благодаря переводу на английский или немецкий язык его материалов и отдельных публикаций результаты проекта стали доступными широкому кругу ученых. Другим аспектом применения является их использование в рамках актуальных попыток сохранения шорского языка (особенно в области народного образования и в подготовке национальных кадров – учителей шорского языка и литературы).

Основные результаты проекта

В основном работы по проекту проводились согласно намеченным целям и задачам по заявленному плану, который предусматривал:

  1. создание технических предпосылок выполнения проекта;
  2. сбора текстовых материалов и подготовки базы для создания электронного корпуса шорских текстов;
  3. собственно работу по автоматизированному анализу и созданию электронного корпуса шорских текстов,
  4. лингвистическое описание созданного корпуса текстов.

Создание технических предпосылок выполнения проекта выражалось в следующем:

  1. Для правильной передачи в электронной форме специальных знаков, необходимых для фиксации шорских текстов в кириллической и латинской транскрипции, был создан ряд шрифтов (Siberia_fix, Janalif.ttf).
  2. На основе сканирования программой FineReader шорской кириллицы и латиницы созданы и пополняются базы данных распознавания шорских текстов. В настоящее время уровень правильного распознавания шорской кириллицы составляет 99% при хорошем качестве сканируемого текста.
  3. Для создания электронного корпуса текстов и их морфологического анализа была выбрана программа «Шубокс». Решающим фактором в пользу этого выбора послужила предоставляемая ею возможность автоматически производить морфологическое членение (сегментацию) словоформ, а также простота работы с нею. Однако программу необходимо было адаптировать к целям нашего проекта, в частности создать структуру шорской базы данных, которая и была разработана.
  4. Создан пакет вспомогательных программ (на языке Tirbo Pascal и Visual Basic) преобразования различных текстовых форматов и файлов в формат ShoeBox для автоматизации работы в программах ShoeBox и Word.
  5. Пополняются и создаются новые настройки программы ShoeBox для работы с шорскими текстами.
  6. Для презентации шорских данных в Интернете таким образом, что пользователи различных операционных систем могли бы читать все специальные знаки, было применено кодирование по системе UNICODE UTF-8. Были составлены таблицы для кодирования шорских знаков и осуществлена пробная презентация текстов в Интернете.
  7. Создан конвертер преобразования шорских текстов из программы ShoeBox в HTML-формат.
  8. Шорский WEB-сайт создан таким образом, чтобы информация одинаково отображалась в двух популярных браузерах Netscape Navigator и Internet Explorer. Для этого пришлось разрабатывать специальные апплеты на языке JavaScript с учетом каждого браузера.
  9. Благодаря использованию программы ShoeBox мы смогли одновременно с анализом включенных в электронный корпус шорских текстов создавать электронный лексикон (шорско-русско-английский словарь).

Параллельно с работой по созданию технических предпосылок собирались текстовые материалы, вследствие чего была подготовлена база для создания электронного корпуса шорских текстов. В этой связи следует упомянуть:

  1. Дополнение библиографического справочника по шорской литературе, который подготавливается А.В. Есиповой и И.А. Невской.
  2. Накопление корпуса текстов объемом 1700 стр., собранных в результате работы в архивах и библиотеках гг. Москвы, Новосибирска, Абакана, Новокузнецка, Таштагола, Мысков и включающих наряду с экспедиционными материалами, неопубликованными и опубликованными текстами также и САМИЗДАТовскую литературу (библиотечка книг и журналов, ксерокопии).
  3. Фиксация различных форм устного народного творчества на аудиокассетах (в том числе 4 эпических сказания) во время командировки в места компактного проживания шорцев.

Собственно работа по автоматизированному морфологическому анализу текстов и созданию электронного корпуса шорских текстов. Здесь следует отметить:

1. Создание электронной базы текстов, которая составляет примерно 1/3 всего корпуса шорских текстов, которые удалось собрать в период работы по проекту. Часть текстов на шорском языке (в кириллице или латинской транслитерации) имеет морфологический анализ. Практически все тексты, включенные в электронный корпус шорских текстов, переведены на русский язык. Исключение составляет «Священная история», перевод которой еще не завершен. На английский язык переведены все тексты, имеющие морфологический анализ. На немецкий язык переведены учебники шорского языка для 2 и 3 класса, а также сказание «Казыр Тоо», которое готовится к изданию в Германии. Переведенные на иностранные языки тексты еще требуют редакции специалистами, для которых эти языки являются родными. На данный момент электронный корпус текстов включает следующие источники:

Неопубликованные произведения:

  • Къазыр Тоо (шорское героическое сказание), сказитель В.Е. Таннагашев, запись Л.Н. Арбачаковой – 27 с.
  • Чеппе Сар аттыг Чеппе Салгъын (шорское героическое сказание), сказитель В.Е. Таннагашев, запись Л.Н. Арбачаковой – 27 с.
  • Куънну коърген Куън Коъоък (шорское героическое сказание), самозапись кайчи В.Е. Таннагашева – 15 с.
  • Куънну коърген Куън Коъоък (шорское героическое сказание), сказитель В.Е. Таннагашев, запись Л.Н. Арбачаковой – 26 с.
  • Акъ Къан (шорское героическое сказание), сказитель А.П. Напазаков, запись Л. Н. Арбачаковой – 65 с.
  • Къаннанъ чабыс Къан Перген (шорское героическое сказание), запись кайчи С.С. Торбокова, обработка Д.А. Функа (отрывок, 15 с.)

Опубликованные произведения:

  • Священная история на шорском наречии. Казань, 1883. 206 с.
  • Уългер / Книга для чтения на шорском языке. / Сост. Г. В. Косточаков. – Кемерово: АО Кемеровское кн. изд-во, 1995. 174 с.
  • Курпешко-Таннагашева Н.Н. Шор пичик. Паштапкъы класскъа. Кемерово ГУНО чараткъан. Букварь для шорских школ. Кемеровское кн. изд-во, 1990. 112с.
  • Курпешко-Таннагашева Н. Н. Шор тили. Ийгинчи класстынъ грамматиказынынъ номы. Учебник шорского языка для второго класса. Кемерово: АО Кемеровское кн. изд-во, 1990. 78 с.
  • Шенцова И. В. Шор 3 тили. Уъжуънчи класскъа ном. Учебник шорского языка для третьего класса. Кемерово: АО Кемеровское кн. изд-во, 1994. 112 с.

2. Перечисленные выше источники послужили базой для интерактивного шорско-русско-английского глоссария к текстам. Созданный в процессе анализа текстов глоссарий содержит более 4300 лексических единиц. Он является самым большим из существующих шорско-русских словарей и не имеет аналога как трехязычный словарь.

На базе созданного корпуса шорских текстов был проведен ряд лингвистических исследований, среди них:

  1. Докторская диссертация по словообразованию тюркских языков «Теоретические проблемы словообразования в тюркских языках» А.В. Есиповой.
  2. Опубликованные и сданные с печать, как в России, так и за рубежом, научные работы (см. Список литературы).
  3. Готовятся к изданию два сборника материалов международных симпозиумов (см. список конференций) в Новокузнецке и во Франкфурте, которые были проведены в рамках проекта.
  4. Создан и пополняется WEB-сайт, где представлена информация о целях проекта и его исполнителях, приведен список литературы, включенной в электронный корпус текстов шорского языка, содержатся образцы шорской речи, шорско-русский и русско-шорский словарь. На WEB-сайте имеется историко-географическая справка об этнографии шорского народа, ремеслах и обычаях, образе жизни, религии. Показаны образцы автоматизированного морфологического и лексического анализа шорских текстов, в частности рассказ А. И. Чудоякова «На охоте» и шорская сказка «Машморук» на русском и английском языке.

Представление результатов на конференциях

Тематика проекта была представлена на следующих международных конференциях:

  • г. Гронинген, Голландия, конференция «Языковые контакты»: «Шорско-русские языковые контакты» (И.А. Невская), доклад опубликован;
  • г. Стамбул, Турция, август 2000, 10-ая конференция по турецкой лингвистике, рабочая группа «Языки Сибири»: «Статический дательный как сибирская ареальная черта» (И.А. Невская, А. Менц) - доклад сдан в печать, «Шорско-турецкие параллели в словообразовании: производные на =чы» (А.В. Есипова);
  • г. Измир, Турция, сентябрь 2000, 4-ый международный тюркологический симпозиум: «Эвиденциальные формы в шорском фольклоре» (И.А. Невская), «Словообразовательный статус аффикса =лыг» (А. В. Есипова) - доклады отданы в печать;
  • Международная конференция «Письменность: становление и развитие науки в Туве», Кызыл, 12-14 сентября 2000 г.: «Механизм выделения словообразовательных и словоизменительных аффиксов» (А.В. Есипова), «Формы прямой засвидетельственности события в шорском фольклоре» (И.А. Невская) – доклады опубликованы;
  • Международная конференция XXII Дульзоновские чтения, Томск, июнь 2000: «О статусе причастных субстантивов» (А.В. Есипова);
  • г. Новокузнецк, Россия, сентябрь 2000 г. Международный симпозиум «Создание компьютерных баз данных современных тюркских языков» с участием д-ра Клауса Шёнига (Германия): изучен опыт немецких ученых по созданию тюркологической страницы в Интернете, зачитано семь докладов, материалы симпозиума готовятся к изданию;
  • г. Абакан, Россия, 19-23 сентября 2001 г. «Международная научно-практическая конференция, посвященная 280-летию открытия древнетюркской письменности»: «Семантические классификации императива» (Н.И. Михайлова).
  • г. Франкфурт-на-Майне, Германия, 6 июля 2001 г., международный симпозиум «Шорский язык и его окружение: Документация и сохранение тюркских языков Южной Сибири»: «Словообразовательный статус залоговых показателей» (А.В. Есипова), «Устаревшая лексика в шорских эпических текстах» (А.В. Есипова, Л.Н. Арбачакова), «О терминологии в переводе на шорский язык библейского текста» (Г.В. Косточаков), «Инвентарь и семантика форм императива в алтайском и шорском языке» (Н.И. Михайлова), «Структура электронного корпуса шорских текстов» (И.А. Невская), «Социальные функции шорского языка: социолингвистические процессы в Горной Шории» (Н.М. Стукова) – доклады сданы в печать.

На международном симпозиуме во Франкфурте были также представлены результаты исследования других тюркских языков южно-сибирского языкового ареала, а также тюркоязычных меньшинств в северном Китае и Монголии. Немецкие коллеги готовят сборник докладов конференции к печати. Книга выйдет в Висбадене, издательство Harrassowitz, серия Turcologica.

Google
WWW lingsib.iea.ras.ru
© ИЭА РАН, 2005 г.
Сайт создан при поддержке Бюро ЮНЕСКО в Москве