Невская И.А.Компьютерные базы лингвистических данных как основа для сохранения и возрождения коренных тюркских языков Сибири1. Современное понимание документации языковДокументация языков с использованием современных технических средств сбора и обработки лингвистических данных выделилась как отдельная лингвистическая дисциплина совсем недавно (Language documentation and description; Lehmann 1983; Lehmann: публикация в Интернете и т.д.). Она сейчас переживает период бурного расцвета: развиваются ее методы, уточняется понимание ее целей, отличных от целей дескриптивной лингвистики, которая стремится собрать корпус текстов, создать словарь и написать грамматику данного языка. Особое значение принимает документация языков в современный исторический период, когда в результате быстро идущих процессов глобализации под угрозой исчезновения оказались тысячи языков. Этой проблематике обращено внимание широкой общественности: созданы и создаются различные ассоциации умирающих языков, формируются фонды для их исследований, запускаются различные научные программы, направленные на их документацию. В частности, можно упомянуть программу DoBeS (Dokumentation Bedrohter Sprachen), финансируемую немецким негосударственным Фондом Фольксвагена (Volkswagen-Stiftung), а также программу документации исчезающих языков ELDP (Endangered Languages Documentation Programme) при Центре востоковедения и африкановедения (SOAS) Лондонского университета, финансируюмую частным фондом, основанным Хансом Раузингом (Hans Rausing). Документации языков в ее современном понимании, ее методам и технологиям была посвящена прощедшая в сентябре 2004 года типологическая школа во Франкфуртском университете, организованная группой профессоров факультета языковых и культурологических дисциплин. В рамках типологической школы прошла международная конференция «Многоязыкий мир», которая представила первые результаты проектов, финансируемых в рамках вышеупомянутых программ, по документации ряда языков мира, находяшихся на грани исчезновения, а также теоретическое осмысление этих результатов в плане развития методов и технологий документации языков как отдельной лингвистической дисциплины. Основная цель современной документации языков – это не просто фиксация языковой системы, а документация языка в различных условиях его естественного употребления, т.е. запись различных коммуникативных ситуаций в разнообразных социальных и культурных контекстах. Эта фиксация производится с помощью всех средств, которыми сейчас располагает исследователь: аудиозаписи, видеозаписи, рисунки и графики, записи текстов от руки. Все виды информации затем расшифровываются, аннотируются и анализируются, комментируются и архивируются. В качестве приоритетных рассматриваются следующие принципы языковой документации (Austin 2004):
Языковые данные документируются на различных носителях:
Все вместе взятое и составляет языковую документацию, которая должна включать следующие компоненты:
Методы документации и используемая терминология должны быть направлены на то, чтобы информация о данном языке была доступна для широкой аудитории: для лингвистов, членов коренного сообщества, учителей и учащихся. Отметим одну интересную попытку практического применения результатов научной документации одного из исчезающих тюркских языков – мультимедийный караимский компакт-диск (Csato and Nathan 2004). 2. Основные принципы языковой документацииКачественная документация языка должна отвечать следующим параметрам (Woodbery 2004):
3. Документация коренных тюркских языков СибириДокументация исчезающих коренных языков Сибири является сейчас одной из важнейших задач современной сибирской лингвистики. Она является и неотложной задачей, так как десятки коренных языков Сибири находятся под угрозой исчезновения. Современная документация тюркских языков делает сейчас первые шаги. Можно упомянуть первую для Юга Сибири попытку создания машинного фонда шорского языка, предпринятую в 1990-1992 годах тюркологами Новокузнецкого государственного педагогического института (ныне Кузбасская государственная педагогическая академия) Есиповой А. В. и Невской И. А. и программистом Ивановым Д. Ю. Была создана программная среда для текстовой и словарной баз данных, начато их заполнение, создана программа автоматизированного морфологического анализа (Есипова и Невская 1994). Начавшиеся в стране экономические реформы, повлекшие катастрофические для науки последствия, отсутствие финансирования заставили прервать работу. Она была продолжена в 1998-2001 годах в рамках международного проекта по созданию компьютерной базы данных шорского языка, финансировавшегося РФФИ и Немецким научно-исследовательским обществом. Руководителем российской группы исследователей была Есипова А. В., руководителем немецкой группы был Марсель Эрдал, Невская И.А. была координатором работы российской и немецкой исследовательских групп. Шорский язык, один из языков коренного населения Сибири, находится под угрозой исчезновения. Перед нами стояла задача создания электронного корпуса шорских текстов на основе ранее не публиковавшихся текстов и экспедиционных материалов. Предполагалось включить в него также опубликованные, но труднодоступные источники (например, миссионерская литература 19 в.) и образцы зарождающейся современной шорской литературы. Созданный корпус шорских текстов предоставил ученым интересный с исторической и лингвистической точки зрения материал. На его базе были проведены разнообразные исследования в области грамматики, лексики и диалектологии шорского языка, а также социолингвистики и фольклористики. В основном работы по проекту проводились согласно намеченным целям и задачам по заявленному плану, который предусматривал:
Создание технических предпосылок выполнения проекта выражалось в следующем:
Параллельно с работой по созданию технических предпосылок собирались текстовые материалы, вследствие чего была подготовлена база для создания электронного корпуса шорских текстов. В этой связи следует упомянуть:
Собственно работа по автоматизированному морфологическому анализу текстов и созданию электронного корпуса шорских текстов включала в себя следующие виды работ.
Проект имел не только научную, но и прикладную направленность, что связано с ревитализацией письменности и национального образования шорцев. Созданный участниками данного проекта электронный корпус шорских текстов, готовый морфологический анализ, содержащаяся в нем русская и английская терминология, шорско-русско-английский словарь и др. могут быть использованы (и уже используются) исследователями разных областей знаний, студентами и преподавателями отечественных и зарубежных вузов как в учебной так и в научной работе, для составления учебных пособий и учебников, подготовки теоретических курсов, проведения типологических и сравнительно-исторических исследований. Работа по созданию электронного корпуса шорских текстов сопровождалась проведением разнообразных лингвистических исследований синхронной, диахронной и ареальной направленности, результаты которых были использованы в работе над совершенствованием морфологического анализа и в подготовке электронного лексикона. Созданный как глоссарий электронный лексикон шорского языка содержит 4300 лексических единиц и уже сейчас является самым большим из словарей исследуемого языка, который не имеет аналогов, как трехъязычный словарь. Создан и пополняется WEB-сайт, который в прошлом году получил зеркало на сервере Франкфуртского университета. На сайте представлена информация о целях проекта и его исполнителях, приведен список литературы, включенной в электронный корпус текстов шорского языка, содержатся образцы шорской речи, шорско-русский и русско-шорский словарь. На WEB-сайте имеется историко-географическая справка об этнографии шорского народа, ремеслах и обычаях, образе жизни, религии. Там показаны образцы автоматизированного морфологического и лексического анализа шорских текстов, в частности рассказ А. И. Чудоякова «На охоте» и шорская народная сказка «Машморук», переведенные на русский и английский языки. Несмотря на все эти несомненные достоинства, созданная база шорских данных не полностью отвечает тем требованиям, которые предъявляются сейчас к документации языков. Так, шорский фонд не содержит образцов разговорного языка, нет видеозаписей различных ситуаций общения, имеются только аудиозаписи нескольких эпических сказаний, но нет образцов разговорной речи, и т.д. Работу над пополнением шорского фонда нужно продолжать, тем более что все технические предпосылки для этого имеются. Работу по документации языков Сибири нужно вести и в других сибирских регионах. Особое поле деятельности для тюркологов представляет сейчас Алтай, где в результате признания целого ряда лингвистических вариантов, на которых говорит тюркоязычное население Алтая, самостоятельными языками, а не диалектами алтайского литературного языка, особенно остро встала задача документации этих языков. Они долгое время оставались почти полностью вне поля зрения исследователей. Почти все они находятся под угрозой исчезновения или уже подошли к той черте, когда нужно предпринимать меры по их ревитализации. Положение усугубляется тем, что все они являются бесписьменными. В то же время подъем национального самосознания данных коренных этносов, их стремление сохранить свой язык и свою культуру для потомков означают, что имеется социальный заказ на документацию этих языков, что эта документация будет иметь не только чисто научное, но и огромное социальное значение. Первой попыткой современной научной документации одного из тюркских языков Алтая является международный проект по чалканскому языку. Он также ведется на базе Франкфуртского университета с немецкой стороны, раководителем немецкой группы исследователей является М. Эрдал. В качестве российского партнера выступает Институт филологии СО РАН, руководителем российской группы является Озонова А. Н., а координатором – И. А. Невская. Проект во многом следует шорскому образцу, но использует современный вариант программы ведения лингвистических баз данных Toolbox. Литература
|
|
© ИЭА РАН, 2005 г.
Сайт создан при поддержке Бюро ЮНЕСКО в Москве
|