Корпус русского литературного языка задуман как представленный
в электронной форме массив морфологически аннотированных текстов
на русском литературном языке.
Корпус содержит тексты со сбалансированным жанровым составом (художественная
проза – не менее 30%, публицистика – не более 30%, научная литература
(аналитика и обзоры, научно-популярная) – не более 20%, а также драматические
произведения (как некоторое приближение к разговорному языку) – около 20%),
насчитывающие чуть больше 1 млн. словоупотреблений. Во всех текстах восстановлена в
правах буква "ё" и проставлены словесные ударения.
В корпус включаются тексты с начала 50-х гг. XX века до настоящего времени.
На базе корпуса создан частотный словарь словоформ. Идет подготовка
морфологически аннотированного варианта текстов корпуса.
С точки зрения его статуса и типа Корпус
русского литературного языка создается как аналог
таких известных корпусов, как Британский национальный корпус,
Национальный американский корпус, Национальный корпус чешского
языка и др.
В перспективе корпус должен обладать максимальной репрезентативностью:
если за пределами корпуса встречается слово, в нем не представленное,
то это либо новая, еще не вошедшая в употребление лексическая единица,
либо ошибка. Для достижения этой цели предполагается постепенно довести
объем корпуса до 100 – 150 млн. словоупотреблений со сбалансированным
жанровым составом.
Наличие Корпуса литературного русского языка –
необходимая предпосылка для создания новой академической грамматики и
академического словаря русского языка, которые послужили бы базой
для разработки семейства грамматик и словарей разной ориентации, в том числе
школьных, а также самых разных пособий и справочников.
Корпус русского литературного языка может служить
пособием для исследователей, работающих
в области грамматики, лексикографии, прикладной лингвистики,
типологии с включением русского языка в качестве объекта
исследования. Корпус будет также ценным источником
информации для работников СМИ и тех, чья профессиональная
деятельность нуждается в «языковой поддержке».
|