Наши ресурсы Новости Морфология Транскрипция Публикации Источники О проекте Коллектив
|
Корпус русского литературного языка Размещенный на данном сайте Корпус русского литературного языка задуман как универсальный инструмент, обеспечивающий более эффективную работу всех, кто связан по роду своей деятельности с современным русским литературным языком или просто интересуется состоянием и функционированием этого языка. Корпус должен влиться в семью уже существующих национальных корпусов других языков – таких, как British National Corpus, National American Corpus, Tresor de la langue francaise и др. Корпус языка – это собрание определенным образом отобранных (с опорой на филологическую экспертизу) текстов на данном языке, которые введены в компьютер и хранятся в электронном виде, пригодные для поиска в них лексических, грамматических, стилистических единиц и явлений, интересующих пользователя. Русский литературный язык – это язык, используемый в русской художественной литературе, публицистике, язык обучения и преподавания в начальных, средних и высших учебных заведениях, язык, на котором говорит образованная часть русского общества (не содержащий диалектизмов, просторечия и т.п.). В настоящий Корпус русского языка входят (пока) только письменные тексты (опубликованные признанными – официально зарегистрированными – издательствами).
Национальный корпус –
это корпус, который обеспечивает
максимально полное отражение лексики и грамматики языка.
Настоящий Корпус русского литературного языка
отражает употребление слов, словоформ, грамматических
конструкций, словосочетаний русского литературного языка,
начиная с середины 20 в. и до настоящего времени. Полнота корпуса
достигается тогда, когда отсутствие в нем слова, словоформы,
грамматической конструкции, более или менее устойчивого
словосочетания означает, что эти единицы или явления:
Предварительная версия Корпуса, размещенная на данном сайте, содержит ок. 1 млн словоупотреблений. Это 218 текстов объемом от 105 до 13700 словоупотреблений, принадлежащих 180 авторам. Тексты примерно в равных объемах представляют художественную литературу (прозу), публицистику, драму, и научную (научно–популярную) литературу. В текстах все словоформы несут знак ударения; везде, где это необходимо, используется буква «ё». В перспективе предполагается довести объем Корпуса до 100 –150 млн словоупотреблений.
Отсутствие в Корпусе слова
и т.п. может реализоваться в двух
вариантах:
Цели и задачи Корпуса:
Поиск в Корпусе
русского литературного языка обеспечивается
специальной программой, которая дает возможность:
Филологическая экспертиза
призвана обеспечить выполнение трех основных
задач:
Паспортизация (метаразметка) текста – это придание каждому тексту, вошедшему в Корпус, максимально полного библиографического описания (автор/авторы, редактор/редакторы, издательство, место и год издания, указание на первую публикацию в случае переиздания, страницы, наличие иллюстраций, библиографии и т.п.). На базе Корпуса создан (частотный) словарь словоформ русского языка. Словарь словоформ – это словарь, единицей которого является словоформа, т.е. слово в той или иной грамматической форме, например, писал (глагол изъявительного накл., прош. вр., муж. р. , ед. ч. и т.п.). В словарь входят все и только те словоформы, которые находятся в текстах Корпуса. Во всех словоформах проставлено ударение; там, где в исходной публикации текста не использовалась буква ё, эта буква восстановлена. При каждой словоформе указан ее ранг частотности. Морфологический дескриптор – это помета при словоформе текста или словаря, которая указывает на соответствующую грамматическую (морфологическую) характеристику словоформы, например, sg., т.е. «единственное число». Все морфологические дескрипторы имеют вид 2-4-буквенных сокращений, произведенных от соответствующих терминов английского языка. Для словоформ, принадлежащих к данной части речи, набор дескрипторов, используемых для характеристики словоформы, представляет собой множество постоянного состава. Например, хотя глаголы в настоящем/будущем времени не обладают формой рода, при них ставится помета «0» в соответствующей позиции описателя, а для глаголов в прошедшем времени «0» ставится в позиции пометы «лицо». Последовательность употребления символов, соответствующих дескрипторам, также всегда одна и та же. Если дескриптор не совместим с данной словоформой, его позиция в линейном перечне дескрипторов замещается «нулем». Морфологическая разметка представляет собой приписывание каждому слову (каждой словоформе) как в словаре, так и в тексте набора морфологических дескрипторов. Морфологически идентичные словоформы обладают идентичными наборами морфологических дескрипторов. В перспективе предполагается введение синтаксической разметки. Синтаксическая разметка – это отражение синтаксической структуры предложения в текстах путем, например, приписывания каждой словоформе или словосочетанию их синтаксической функции в терминах избранной синтаксической теории (например, 1-й актант, 2-й актант и т.д. для именных словоформ и конструкций). Ранг частотности словоформы – это специальный индекс, который проставляется в словаре при каждой словоформе, указывая на частоту употребления данной словоформы в текстах Корпуса.
Конкорданс: |
|||
E-mail
Home |
||||