Корпус русского литературного языка

Наши ресурсы

Новости

Морфология

Транскрипция

Публикации

Источники

О проекте

Коллектив

Проект
«Национальный корпус
русского языка»
поддерживался
Российским Гуманитарным
Научным Фондом,
грант № 03-04-00226а
и частично программой
«Филология и информатика» РАН.

Руководитель проекта –
д.филол.н., проф., акад. РАО
Л.А.Вербицкая,
ответственный исполнитель –
д.филол.н., проф. В.Б.Касевич
(СПбГУ).

Помимо сотрудников
Санкт-Петербургского
государственного университета,
в работе участвовали также сотрудники
Института лингвистических
исследований РАН (СПб).

Корпус русского литературного языка

Размещенный на данном сайте Корпус русского литературного языка задуман как универсальный инструмент, обеспечивающий более эффективную работу всех, кто связан по роду своей деятельности с современным русским литературным языком или просто интересуется состоянием и функционированием этого языка. Корпус должен влиться в семью уже существующих национальных корпусов других языков – таких, как British National Corpus, National American Corpus, Tresor de la langue francaise и др.

Корпус языка – это собрание определенным образом отобранных (с опорой на филологическую экспертизу) текстов на данном языке, которые введены в компьютер и хранятся в электронном виде, пригодные для поиска в них лексических, грамматических, стилистических единиц и явлений, интересующих пользователя.

Русский литературный язык – это язык, используемый в русской художественной литературе, публицистике, язык обучения и преподавания в начальных, средних и высших учебных заведениях, язык, на котором говорит образованная часть русского общества (не содержащий диалектизмов, просторечия и т.п.). В настоящий Корпус русского языка входят (пока) только письменные тексты (опубликованные признанными – официально зарегистрированными – издательствами).

Национальный корпус – это корпус, который обеспечивает максимально полное отражение лексики и грамматики языка. Настоящий Корпус русского литературного языка отражает употребление слов, словоформ, грамматических конструкций, словосочетаний русского литературного языка, начиная с середины 20 в. и до настоящего времени. Полнота корпуса достигается тогда, когда отсутствие в нем слова, словоформы, грамматической конструкции, более или менее устойчивого словосочетания означает, что эти единицы или явления:

принадлежат к сугубо индивидуальному (присущему только лишь данному автору) словоупотреблению и не встречаются в текстах других авторов;
являются ошибкой, ненормативным употреблением;
являются анахронизмом, явно устаревшим словоупотреблением;
являются не ассимилированным (т.е. еще не вошедшим в русский язык) заимствованием.

Предварительная версия Корпуса, размещенная на данном сайте, содержит ок. 1 млн словоупотреблений. Это 218 текстов объемом от 105 до 13700 словоупотреблений, принадлежащих 180 авторам. Тексты примерно в равных объемах представляют художественную литературу (прозу), публицистику, драму, и научную (научно–популярную) литературу. В текстах все словоформы несут знак ударения; везде, где это необходимо, используется буква «ё». В перспективе предполагается довести объем Корпуса до 100 –150 млн словоупотреблений.

Отсутствие в Корпусе слова и т.п. может реализоваться в двух вариантах:

реальное отсутствие, когда текст, содержащий устаревшее, не соответствующее нормам литературного языка и т.п. слово, по тем или иным причинам не вошел в состав Корпуса;
текст с ненормативным, неассимилированным и т.п. словом содержится в Корпусе, но само слово, находясь за рамками русского литературного языка, помечается как UNC (от англ. unclassified) и не учитывается в каких бы то ни было операциях, осуществляемых на основе Корпуса.

Цели и задачи Корпуса:

служить надежным источником фактического материала для составления словарей, грамматик, учебников, справочных пособий;
обеспечивать возможность проверки лингвистических гипотез на максимально представительном материале;
выполнять функции справочного пособия для выяснения вопросов о современном русском литературном словоупотреблении, т.е. служить эффективным помощником для всех, работающих со словом (лингвисты, литературоведы, журналисты, писатели, переводчики, преподаватели русского языка и др.);
служить базой для компьютерного моделирования речевой деятельности.

Поиск в Корпусе русского литературного языка обеспечивается специальной программой, которая дает возможность:

обнаружить любое заданное слово (словоформу) во всех текстах;
при необходимости дать статистику употребления слова (словоформы);
устанавливать конкордансы – слова и словосочетания, употребляющиеся совместно с заданным словом (словоформой, словосочетанием) .

Филологическая экспертиза призвана обеспечить выполнение трех основных задач:

определение целесообразности включения данного текста в состав Корпуса;
обеспечение сбалансированности массивов текстов, входящих в Корпус, с точки зрения представленности разных жанров, авторов и т.п.;
снабжение каждого текста, вошедшего в Корпус, паспортизацией, или метаразметкой.

Паспортизация (метаразметка) текста – это придание каждому тексту, вошедшему в Корпус, максимально полного библиографического описания (автор/авторы, редактор/редакторы, издательство, место и год издания, указание на первую публикацию в случае переиздания, страницы, наличие иллюстраций, библиографии и т.п.).

На базе Корпуса создан (частотный) словарь словоформ русского языка.

Словарь словоформ – это словарь, единицей которого является словоформа, т.е. слово в той или иной грамматической форме, например, писал (глагол изъявительного накл., прош. вр., муж. р. , ед. ч. и т.п.). В словарь входят все и только те словоформы, которые находятся в текстах Корпуса. Во всех словоформах проставлено ударение; там, где в исходной публикации текста не использовалась буква ё, эта буква восстановлена. При каждой словоформе указан ее ранг частотности.

Морфологический дескриптор – это помета при словоформе текста или словаря, которая указывает на соответствующую грамматическую (морфологическую) характеристику словоформы, например, sg., т.е. «единственное число». Все морфологические дескрипторы имеют вид 2-4-буквенных сокращений, произведенных от соответствующих терминов английского языка. Для словоформ, принадлежащих к данной части речи, набор дескрипторов, используемых для характеристики словоформы, представляет собой множество постоянного состава. Например, хотя глаголы в настоящем/будущем времени не обладают формой рода, при них ставится помета «0» в соответствующей позиции описателя, а для глаголов в прошедшем времени «0» ставится в позиции пометы «лицо». Последовательность употребления символов, соответствующих дескрипторам, также всегда одна и та же. Если дескриптор не совместим с данной словоформой, его позиция в линейном перечне дескрипторов замещается «нулем».

Морфологическая разметка представляет собой приписывание каждому слову (каждой словоформе) как в словаре, так и в тексте набора морфологических дескрипторов. Морфологически идентичные словоформы обладают идентичными наборами морфологических дескрипторов. В перспективе предполагается введение синтаксической разметки.

Синтаксическая разметка – это отражение синтаксической структуры предложения в текстах путем, например, приписывания каждой словоформе или словосочетанию их синтаксической функции в терминах избранной синтаксической теории (например, 1-й актант, 2-й актант и т.д. для именных словоформ и конструкций).

Ранг частотности словоформы – это специальный индекс, который проставляется в словаре при каждой словоформе, указывая на частоту употребления данной словоформы в текстах Корпуса.

Конкорданс:
первоначальное значение термина – перечень (обычно алфавитный) слов, входящих в текст или множество текстов (сочинения данного автора и т.п.), с указанием всех случаев употребления каждого слова в тексте/текстах. В корпусной лингвистике специальные программы-конкордансеры (в русской литературе иногда – программы-конкордансы) дают возможность установить контексты заданного типа и объема для любой языковой единицы, входящей в корпус; например, дать перечень всех слов, следующих за данной словоформой до конца предложения, во всех случаях употребления этой словоформы в одном, двух или всех текстах корпуса. Множество таких перечней также называют конкордансом.

E-mail

Home