Корпус русского литературного языка
Размещенный на данном сайте
Корпус русского
литературного языка задуман как универсальный инструмент,
обеспечивающий более эффективную работу всех, кто связан по
роду своей деятельности с современным русским литературным
языком или просто интересуется состоянием и функционированием
этого языка. Корпус должен влиться в семью уже существующих
национальных корпусов других языков – таких, как British National
Corpus, National American Corpus, Tresor de la langue francaise и др.
Корпус языка –
это собрание определенным образом
отобранных (с опорой на филологическую экспертизу) текстов на
данном языке, которые введены в компьютер и хранятся в
электронном виде, пригодные для поиска в них лексических,
грамматических, стилистических единиц и явлений, интересующих
пользователя.
Русский литературный язык –
это язык, используемый в
русской художественной литературе, публицистике, язык обучения
и преподавания в начальных, средних и высших учебных
заведениях, язык, на котором говорит образованная часть русского
общества (не содержащий диалектизмов, просторечия и т.п.). В
настоящий Корпус русского языка входят (пока)
только письменные тексты (опубликованные признанными –
официально зарегистрированными – издательствами).
Национальный корпус –
это корпус, который обеспечивает
максимально полное отражение лексики и грамматики языка.
Настоящий Корпус русского литературного языка
отражает употребление слов, словоформ, грамматических
конструкций, словосочетаний русского литературного языка,
начиная с середины 20 в. и до настоящего времени. Полнота корпуса
достигается тогда, когда отсутствие в нем слова, словоформы,
грамматической конструкции, более или менее устойчивого
словосочетания означает, что эти единицы или явления:
- принадлежат к сугубо индивидуальному (присущему только
лишь данному автору) словоупотреблению и не встречаются в
текстах других авторов;
- являются ошибкой, ненормативным употреблением;
- являются анахронизмом, явно устаревшим словоупотреблением;
- являются не ассимилированным (т.е. еще не вошедшим в русский
язык) заимствованием.
Предварительная версия Корпуса,
размещенная на данном
сайте, содержит ок. 1 млн словоупотреблений. Это 218 текстов
объемом от 105 до 13700 словоупотреблений, принадлежащих 180 авторам.
Тексты примерно в равных объемах представляют художественную
литературу (прозу), публицистику, драму, и научную (научно–популярную)
литературу. В текстах все словоформы несут знак
ударения; везде, где это необходимо, используется буква «ё». В
перспективе предполагается довести объем Корпуса до 100 –150
млн словоупотреблений.
Отсутствие в Корпусе слова
и т.п. может реализоваться в двух
вариантах:
- реальное отсутствие, когда текст, содержащий устаревшее,
не соответствующее нормам литературного языка и т.п.
слово, по тем или иным причинам не вошел в состав
Корпуса;
- текст с ненормативным, неассимилированным и т.п. словом
содержится в Корпусе, но само слово, находясь за рамками
русского литературного языка, помечается как UNC (от англ.
unclassified) и не учитывается в каких бы то ни было
операциях, осуществляемых на основе Корпуса.
Цели и задачи Корпуса:
- служить надежным источником фактического материала
для составления словарей, грамматик, учебников,
справочных пособий;
- обеспечивать возможность проверки лингвистических
гипотез на максимально представительном материале;
- выполнять функции справочного пособия для выяснения
вопросов о современном русском литературном
словоупотреблении, т.е. служить эффективным
помощником для всех, работающих со словом (лингвисты,
литературоведы, журналисты, писатели, переводчики,
преподаватели русского языка и др.);
- служить базой для компьютерного моделирования речевой деятельности.
Поиск в Корпусе
русского литературного языка обеспечивается
специальной программой, которая дает возможность:
- обнаружить любое заданное слово (словоформу) во всех текстах;
- при необходимости дать статистику употребления слова (словоформы);
- устанавливать конкордансы – слова и словосочетания, употребляющиеся
совместно с заданным словом (словоформой, словосочетанием)
.
Филологическая экспертиза
призвана обеспечить выполнение трех основных
задач:
- определение целесообразности включения данного текста в состав Корпуса;
- обеспечение сбалансированности массивов текстов, входящих в Корпус, с точки
зрения представленности разных жанров, авторов и т.п.;
- снабжение каждого текста, вошедшего в Корпус, паспортизацией, или
метаразметкой.
Паспортизация (метаразметка) текста
– это придание каждому тексту,
вошедшему в Корпус, максимально полного библиографического описания
(автор/авторы, редактор/редакторы, издательство, место и год издания, указание на
первую публикацию в случае переиздания, страницы, наличие иллюстраций,
библиографии и т.п.).
На базе Корпуса создан
(частотный) словарь словоформ русского языка.
Словарь словоформ –
это словарь, единицей которого является словоформа, т.е.
слово в той или иной грамматической форме, например, писал (глагол
изъявительного накл., прош. вр., муж. р. , ед. ч. и т.п.). В словарь входят все и
только те словоформы, которые находятся в текстах Корпуса. Во всех словоформах
проставлено ударение; там, где в исходной публикации текста не использовалась
буква ё, эта буква восстановлена. При каждой словоформе указан ее ранг
частотности.
Морфологический дескриптор –
это помета при словоформе текста или словаря,
которая указывает на соответствующую грамматическую (морфологическую)
характеристику словоформы, например, sg., т.е. «единственное число». Все
морфологические дескрипторы имеют вид 2-4-буквенных сокращений,
произведенных от соответствующих терминов английского языка. Для словоформ,
принадлежащих к данной части речи, набор дескрипторов, используемых для
характеристики словоформы, представляет собой множество постоянного состава.
Например, хотя глаголы в настоящем/будущем времени не обладают формой рода,
при них ставится помета «0» в соответствующей позиции описателя,
а для глаголов в прошедшем времени «0» ставится в позиции пометы
«лицо».
Последовательность употребления символов,
соответствующих дескрипторам, также всегда одна и та же. Если дескриптор не
совместим с данной словоформой, его позиция в линейном перечне дескрипторов
замещается «нулем».
Морфологическая разметка
представляет собой
приписывание каждому слову (каждой словоформе) как в словаре,
так и в тексте набора морфологических дескрипторов.
Морфологически идентичные словоформы обладают идентичными
наборами морфологических дескрипторов. В перспективе
предполагается введение синтаксической разметки.
Синтаксическая разметка –
это отражение синтаксической
структуры предложения в текстах путем, например, приписывания
каждой словоформе или словосочетанию их синтаксической
функции в терминах избранной синтаксической теории (например,
1-й актант, 2-й актант и т.д. для именных словоформ и конструкций).
Ранг частотности словоформы –
это специальный индекс,
который проставляется в словаре при каждой словоформе, указывая
на частоту употребления данной словоформы в текстах Корпуса.
Конкорданс: первоначальное
значение термина – перечень
(обычно алфавитный) слов, входящих в текст или множество
текстов (сочинения данного автора и т.п.), с указанием всех случаев
употребления каждого слова в тексте/текстах. В корпусной
лингвистике специальные программы-конкордансеры (в русской
литературе иногда – программы-конкордансы) дают возможность
установить контексты заданного типа и объема для любой языковой
единицы, входящей в корпус; например, дать перечень всех слов,
следующих за данной словоформой до конца предложения, во всех
случаях употребления этой словоформы в одном, двух или всех
текстах корпуса. Множество таких перечней также называют
конкордансом.
|