Статья на тему «Лингвистические корпуса»

0
0
Материал опубликован 21 March 2022

ЛИНГВИСТИЧЕСКИЕ КОРПУСА



Пчелинцева Галина Викторовна,

учитель немецкого языка МОУ СШ № 106 г.Волгограда


Изучение языковых корпусов, начавшееся в середине ХХ века, привело к формированию такого направления науки о языке как корпусная лингвистика. Корпусная лингвистика обладает большим исследовательским потенциалом, однако наблюдается различие подходов к использованию корпусов в России и за рубежом.

В.П. Захаров, называет науку о корпусах «разделом компьютерной лингвистики, который занимается разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с применением компьютерных технологий». В рамках данной научной дисциплины ключевым элементом является языковой корпус, под которым понимается «многогранное собрание естественных случаев употребления языка в виде текстов разной жанровой и стилистической направленности и хранящееся в электронном формате». Его основное назначение состоит в обеспечении получения достоверной информации об употреблении слова и нахождении лексических единиц и грамматических конструкций благодаря лингвистической разметке.

Сысоев П.В. данное понятие интерпретирует следующим образом. Корпусная лингвистика – это «раздел языкознания, занимающийся выявлением закономерностей функционирования языка через его анализ и изучение с помощью лингвистического корпуса».

Ключевым компонентом в корпусной лингвистике, ее объектом является языковой корпус, однако его функцию довольно трудно определить однозначно по причине его двойственной природы. Корпус одновременно является и исходным речевым материалом, и непосредственным продуктом лингвистических исследований.

В современной лингвистике представлено множество дефиниций термина «корпус». Однако наиболее полным и многогранным считается определение, принадлежащее Д. М. Синклеру: «корпус есть собрание отрывков текстов в электронной форме, отобранных в соответствии с внешними критериями, чтобы наиболее полно представлять язык или вариацию языка; он функционирует в качестве источника данных для лингвистических исследований».

При создании лингвистических корпусов одним из принципиальных вопросов является вопрос о том, какие тексты и в каком объеме необходимо отобрать в корпус. Одним из требований, предъявляемым к составу и структуре корпуса является требование полноты. Данное требование входит в противоречие с другим важным принципом создания корпуса – требованием репрезентативности. Репрезентативность (по отношению к проблемной области) – требование, предъявляемое к составу и объему корпуса и важнейшее его свойство. Под репрезентативностью понимается «способность корпуса текстов отражать все свойства проблемной области, релевантные для данного типа лингвистических исследований, в определенной пропорции, определяемой частотой явления в проблемной области».

Тексты в корпус выбираются не случайно, а в соответствии с проблемной областью, т.е. областью реализаций интересующих исследователя языковых явлений. Проблемная область представлена двумя аспектами: языковой и речевой. Языковой аспект – это само изучаемое явление, а речевой – это множество контекстов, в которых это явление представлено.

Задача создателей корпуса заключается в сборе большего количества текстов, относящихся к тому подмножеству языка, для изучения которого корпус создается.

Следующим важным параметром, который нужно учитывать при создании нужного корпуса является его объем. Если первые корпусы достигали миллиона слов (словоупотреблений или текстоформ), то объем современных корпусов исчисляется сотнями миллионов (например, объем Национальный Корпус Русского языка на данный момент составляет около 140 млн. слов) или миллиардами (например, объем корпуса английского языка Bank of English превышает 2,5 миллиарда слов).

Среди корпусов немецкого языка наиболее известны Мангеймские корпусы (COSMAS corpora или DeReKo), DWDS-Corpus, Leipzig Corpora, корпусы института Немецкого языка LIMAS-Korpus, NEGRA.

Мангеймский корпус немецкого языка — это коллекция современных немецкоязычных текстов, поддерживаемая Институтом немецкого языка в городе Маннгейм (Германия). С 2004 года официальное название корпуса — Deutsches Referenzkorpus (DeReKo).

Корпус предназначен для всех, кто интересуется самыми разными вопросами, связанными с немецким языком: профессиональных лингвистов, преподавателей языка, школьников и студентов, иностранцев, изучающих немецкий язык. В корпусе представлены различные типы текстов: научная и научно-популярная литература, большое количество газетных текстов, художественная проза, и др.

Подкорпусы Мангеймского проекта (Archiv für gesprochenes Deutsch) охватывают 4 группы корпусов, посвященных разновидностям немецкого языка (Sprachvarietäten) на территории Германии и за ее пределами.

Синтактически аннотированный корпус немецкого языка NEGRA. Синтаксически аннотированный корпус немецких газетных текстов (Frankfurter Rundschau), в котором для каждого предложения построена полная морфологическая и синтаксическая структура (дерево зависимостей, банки синтаксических структур, Treebank / Baumbank).  Корпус содержит 350 миллионов слов. Преимуществом такого корпуса является возможность поиска по заданным синтаксическим критериям (например, все предложения с междометиями / составным именным сказуемым / глагольным сказуемым / и т.п.).

Корпус немецкого языка DWDS. Корпус для создания словаря немецкого языка  20 в. был собран Берлинско-Бранденбургской Академией наук. Он включает несколько подкорпусов: художественная литература (26%); газеты (27%); научная литература (22%); нехудожественные тексты (20%); устные тексты (5%). В итоге корпус включает 106 миллионов слов и более 200.000 статей. В корпусе можно отдельно выбирать временные периоды и типы текстов.

Для решения различных лингвистических задач необходимо, чтобы тексты и отдельные языковые единицы внутри текстов содержали дополнительную лингвистическую и металингвистическую информацию – разметку (аннотацию).

В современных корпусах помимо метаразметки (отражающей различную экстралингвистическую информацию о тексте, включая его название, автора, жанровую принадлежность и т.п.,), содержится разметка, соответствующая различным уровням лингвистического описания, – морфологическая, синтаксическая, фонетическая и др.

При выборе этих данных необходимо руководствоваться целями исследования и потребностями лингвистов, а также возможностями по внесению в текст тех или иных дополнительных признаков. Технологию создания корпусов можно представить в виде этапов.

В настоящее время существует большое количество лингвистических корпусов. Причиной такого многообразия является тот факт, что язык является очень разнородным и динамичным явлением, и в качестве его репрезентативной выборки трудно представить себе один единственный корпус. Для каждой конкретной исследовательской цели можно выбрать свой тип корпуса.

В современном мире существует множество классификаций, из которых наиболее подробная принадлежит британскому филологу Д. Кристалу. Он выделяет:

1) Корпусы для общих и специальных целей. Корпус для общих целей (эталонный) считается репрезентативным для конкретного языка в целом, и поэтому может использоваться для общих наблюдений относительно этого языка. Основная функция данного корпуса – это фокус на языке, который используется обычными людьми в повседневных ситуациях. Обычно он содержит письменные и устные материалы следующих типов: газеты, художественная литература, репортажи, радио- и телепередачи, дебаты и т.д. Примером данного типа корпуса может служить Корпус немецкого языка DWDS, созданный Берлинско-Бранденбургской Академией наук.

2) Корпусы одноязычные и многоязычные. Одноязычный корпус содержит тексты одного языка (например, инварианта и вариантов языка), в то время как наполнение многоязычных корпусов представлено текстами двух и более языков. Многоязычные корпусы в свою очередь подразделены на параллельные и сопоставленные. Параллельные корпусы включают в себя тексты на языке оригинала и тексты соответствующих переводов.

3) Корпусы синхронические и диахронические. Синхронический корпус представляет собой пример использования языка в момент определенного отрезка времени, тогда как диахронический корпус показывает динамику развития языка в течение длительного периода.

5) Корпусы открытые и закрытые. Открытый корпус позволяет пользователю в любое время обратиться к коллекции текстов, или к их части, в ряде случаев. Открытый корпус постоянно пополняется и в основном используется в лексикографии, поскольку создателям словарей необходимо своевременно узнавать о появлении новых слов или случаях деноминации (изменениях в значении). Напротив, закрытый корпус не подлежит каким-либо изменениям после его создания. Закрытые корпусы составляются для узкоспециализированных целей и, как правило, не предназначены для общего доступа.

Таким образом, применение лингвистических корпусов при обучении иностранному языку дает возможность оценить употребление различных словообразований и словосочетаний непосредственно носителями языка. Более того, лингвистический корпус дает возможность отслеживать изменения и преобразования в языке, так как он постоянно обновляется.







Список источников и литературы

1.Базарова, Б.Б. Корпусная лингвистика и преподавание иностранных языков / Б.Б. Базарова // Вестник бурятского государственного университета. – 2015. – Вып.15. – С.88-92

2.Борискина, О.О. Корпусное исследование языка: мода или необходимость? / О.О. Борискина // Вестник ВГУ. Серия: Лингвистика и межкультурная коммуникация. – 2015. – №3. – С.24-27

3.Горина, О.Г. Инструменты корпусного анализа в обучении иностранному языку / О.Г.Горина // Вестник Томского государственного университета. 2018. № 435. С. 187–194.

4.Захаров, В.П., Богданова, С.Ю. Корпусная лингвистика: учебник для студентов гуманитарных вузов. –Иркутск: ИГЛУ, 2011. –161 с.

5.Плунгян, А. Корпус как инструмент и как идеология: о некоторых уроках современной корпусной лингвистики / А. Плунгян // Русский язык в научном освещении. –Москва, 2008. –№02 (16). –С. 7–20.

6.Рыков, В. В. Корпус текстов как реализация объектно-ориентированной парадигмы / В. В. Рыков // Труды Международного семинара Диалог-2002. – М.: Наука, 2002. – С. 124–129.

7.Сысоев, П.В. Корпусная лингвистика и преподавание иностранных языков / 8.Корпусная лингвистика сегодня. [Электронный ресурс]. – Режим доступа: https://studiorum-ruscorpora.ru/current/

9.Янполова, А.А. Основные принципы построения лингвистических корпусов. [Электронный ресурс]. – Режим доступа: http: // https://pgu.ru/upload/iblock/406/92.pdf











в формате Microsoft Word (.doc / .docx)
Комментарии
Комментариев пока нет.