ПРИНЦИПЫ МОРФОЛОГИЧЕСКОГО ОПИСАНИЯ В КОРПУСЕ РУССКОГО ЛИТЕРАТУРНОГО ЯЗЫКА
(проект)

Корпус русского литературного языка представляет собой собрание письменных текстов (художественных, научно-публицистических, публицистических и драматургических), которые отражают период с середины 50-х гг. до нашего времени. Большинство текстов представлено фрагментами.

Важной особенностью корпуса является обязательная акцентуированность всех словоформ текстов, а также систематическое восстановление в правах буквы «ё». Это позволяет избежать ошибок в морфологическом описании словоформ, связанных с омографией; использовать корпус в качестве надёжного обучающего русскому языку средства (в том числе и для иностранцев), обращаться к нему как при решении традиционных лингвистических задач, так и при моделировании процессов порождения и восприятия речи, в автоматическом синтезе речи по тексту. Во всех этих случаях наличие информации об ударении является обязательным.

В отличие от этого, автоматическая (или полуавтоматическая) морфологическая разметка неакцентуированного русского текста затруднена наличием большого числа (более 4 тыс.) омографов; соответственно, не зная места ударения, компьютерная программа часто не может определить, с какой словоформой имеет дело (например, любИм или лЮбим?), и вынуждена давать все возможные описания для данной словоформы. Наличие проставленного в текстах ударения позволяет снять омонимию, связанную с ударением и неиспользованием буквы «ё», и избежать возможных ошибок в морфологическом описании словоформ.

При таком подходе описание в корпусе омографических форм сразу принимает разный вид для каждого члена пары (тройки) омографов. Например,

во+ды{во+ды=NNP,0,inan=,pl,nm}
воды+{вода+=NNS,f,inan=,sg,gn}

или

заступи+тесь{заступи+ться=VV0,prfc,intr=,0,impr,0,pl,2p,0}
засту+питесь{заступи+ться=VV0,prfc,intr=,0,indc,futr,pl,2p,0}

(Здесь и далее символом «+» помечен ударный гласный.)

При выборе общей структуры морфологического описателя за основу была принята структура, создаваемая программой DiaLing, с той лишь разницей, что часть характеристик словоформы из категории грамматических была отнесена к категории «принадлежность к субпарадигме». В итоге для каждой словоформы прежде всего указывается, к какой лексеме она относится; далее следуют морфологические характеристики лексемы (точнее, основного варианта лексемы), затем указывается принадлежность к субпарадигме (например, у глаголов – отнесение к субпарадигме «причастие», «деепричастие», «инфинитив», или «безличное употребление») и – далее – морфологические характеристики данной словоформы. Общее описание имеет следующий вид:

<словоформа>{<лексема>=<частеречный маркер лексемы>,
<грамматич. характеристики лексемы>
=[<принадлежность к субпарадигме>],
<грамматич. характеристики словоформы>}

Для каждого класса описываемых единиц языка количество дескрипторов и порядок их введения при морфологической разметке есть характеристика постоянная. Если некоторая характеристика, предусмотренная системой дескрипторов для единиц данного класса, оказывается отсутствующей (невозможной, неприменимой), ее отсутствие фиксируется символьно введением нуля. Так, в сослагательном наклонении или в императиве глаголы не различаются по временам, но эта характеристика считается неотъемлемым признаком глагола, а потому ее отсутствие в описании отмечается нулём.
Например:

ве+рил{ве+рить=VV0,impf,intr=,0,indc,past,sg,0,m}
ве+рил{ве+рить=VV0,impf,intr=,0,sbjn,0,sg,0,m}
иди+{идти+=VV0,impf,intr=,0,impr,0,sg,2p,0}

При выборе системы имен индексов для описания частеречных классов и субпарадигм мы ориентировались на Национальный Британский корпус (British National Corpus – BNC), в итоге описатели частеречных классов и субпарадигм представляют собой трехсимвольные сочетания в латинице. Для описания грамматических характеристик использована в несколько измененном виде система маркеров, принятая в корпусе русского языка, размещенном на сайте Яндекса.

Принятая система лексико-грамматических классов по ряду параметров отличается как от традиционных (академических) систем частей речи, так и от систем, используемых в других корпусах русского языка. Так, кроме традиционных частеречных классов (сущ., прилаг., глагол, союзы, предлоги и пр.), введены такие классы, как: вводные слова (типа коне+чно, быть_мо+жет, по-мо+ему), аналитические прилагательные (типа Горбачё+в- из Горбачё+в-фо+нд, Интерне+т- из Интерне+т-кафе+), связанные слова (типа тё+мно- из тё+мно-кра+сный, неме+цко- из неме+цко-ру+сский), служебные слова (типа са+мый как средство образования аналитического суперлатива, бо+лее, ме+нее – как средства образования аналитического компаратива). Последовательно разграничиваются – условно на уровне частеречной характеристики – полнозначные и вспомогательные глаголы; на этом же уровне выделяются безличные глаголы. Тем самым снимается ещё один пласт морфологической омонимии – например, местоимение са+мый (о+н са+мый) и служебное слово са+мый (са+мый большо+й); вспомогательный глагол бы+ть (О+н бы+л серьё+зен) и полнозначный глагол бы+ть (О+н бы+л вчера+ на рабо+те); личный глагол рвё+т и безличный глагол рвё+т и т.п.).

В настоящее время в один класс вспомогательных глаголов попадают: глаголы, служащие для образования аналитических форм будущего времени, аналитических форм пассива, связки, а также фазовые глаголы (типа начина+ть, конча+ть, продолжа+ть). Стоит особо оговорить необходимость включения в данный класс фазовых глаголов. С семантической точки зрения они – безусловные операторы. У них всегда валентность (единственная) на пропозицию (начина+ть, конча+ть, продолжа+ть можно только что-то делать, чему и отвечает пропозиция). В то же время данные глаголы традиционно трактуются как полнозначные, не отличающиеся от любых других глаголов. При обработке большого числа конструкций с указанными глаголами видно, что они во многом ведут себя как типичные вспомогательные глаголы: как и при использовании вспомогательного глагола бы+ть, именно фазовые глаголы выражают грамматическую информацию, а управляемые ими полнозначные глаголы – лексическую. То же видно на материале безличных конструкций, где также фазовые глаголы передают безличность и другую грамматическую информацию, а управляемый глагол – лексическую, ср. начина+ло света+ть и т.п. С учётом сказанного словоформа на+чало, например, может получать в корпусе одно из следующих описаний:

на+чало{нача+ть=VAX,prfc,tran=,act,indc,past,sg,0,n}
на+чало{нача+ть=VAX,prfc,tran=,act,sbjn,0,sg,0,n}
на+чало{нача+ть=VAX,prfc,tran=IPS,0,indc,past,0,0,0}
на+чало{нача+ть=VAX,prfc,tran=IPS,0,sbjn,0,0,0,0}
на+чало{нача+ть=VV0,prfc,tran=,act,indc,past,sg,0,n}
на+чало{нача+ть=VV0,prfc,tran=,act,sbjn,0,sg,0,n}

В качестве основного варианта лексемы в целом приняты традиционные решения, но в ряде случаев требуется специальный комментарий. Во многом принятие решения по поводу отнесения словоформы к тому или иному частеречному классу обусловливает и решение вопроса об основном варианте лексемы. Так, например, в нашем корпусе субстантивированные прилагательные и причастия, допускающие употребление как в единственном, так и во множественном числе, помещаются в зависимости от формы числа либо в категорию NNS (нарицательные существительные, имеющие форму только единственного числа), либо в категорию NNP (нарицательные существительные, имеющие форму только множественного числа), следовательно, в качестве основного варианта лексемы в каждом случае будет выступать либо форма им.п. ед.ч. либо форма им.п. мн.ч. Например,

больно+й{больно+й=NNS,m,anim=,sg,nm}
больна+я{больна+я=NNS,f,anim=,sg,nm}
больны+е{больны+е=NNP,0,anim=,pl,nm}

В отличие от концепции «Грамматического словаря русского языка» А.А. Зализняка, в представленном морфологическом описании разграничиваются лексемы хле+б – хлеба+, трава+ – тра+вы, вино+ – ви+на и т.п. Отнесённость к грамматическому классу и вопрос об основном варианте лексемы в данном случае решается по аналогии с существительными больно+й, больны+е.

Глаголы совершенного и несовершенного вида признаются разными лексемами. В лингвистике такая точка зрения представлена. В нашем случае указанное решение сильно облегчает процедуры лемматизации при переходе от словаря словоформ к словарю лексем: различия между глаголами в сов. и несов. в. настолько несистематичны (префиксация, причем разная, и суффиксация, чередования, перегласовка и т.п., имперфективация, с одной стороны, и перфективация – с другой), что формализация всех этих идиосинкразий чрезвычайно затруднительна. Есть и другие резоны в пользу такого решения. Поэтому для словоформ в пределах парадигмы несовершенного вида основным вариантом лексемы признаётся инфинитив несовершенного вида; для словоформ в пределах парадигмы совершенного вида – соответственно – инфинитив совершенного вида.
Двувидовые глаголы подаются дважды, как омонимы. Например,

ратифици+ровать{ратифици+ровать=VV0,impf,tran=VVI}
ратифици+ровать{ратифици+ровать=VV0,prfc,tran=VVI}

В корпусе последовательно выделяются идиомы (под идиомой понимаются неоднословные целостности, или словосочетания, не выводимые по правилам, а потому включаемые в словарь на правах отдельной единицы). В представленной системе категория «идиома» занимает то же место, что и категория «лексема». В качестве отдельной группы в составе широко понимаемых идиом (как целостных единиц, в основе целостности которых – семантика) выделяются и последовательно разграничиваются в корпусе так называемые составные слова. Под последними имеются в виду единицы, которые иногда в литературе называют «сочетаниями, эквивалентными слову» (типа в_обни+мку, в_голова+х, а_то+ и пр.). Следует заметить, что составной характер таких сочетаний, как в обни+мку, носит орфографический характер, с грамматической же точки зрения это слова-наречия. В пределах категории «составные слова» выделяются разрывные и неразрывные (составные) слова (например, дру+г__о__дру+ге – с одной стороны, и в_обни+мку, на_дыбы+, изо_дня+_в_де+нь – с другой). Введение категории «составные слова» позволяет снять омонимию на уровне выбора «свободное словосочетание»/«целостная единица» (например, Дру+г дру+га всегда+ подде+ржит и Они+ ненави+дели дру+г__дру+га; Всё^_равно+ о+н не придё+т и У него+ получи+лось, что всё+ равно+), что в конечном итоге позволяет получить более адекватную картину, с одной стороны, связанную с частотностью единиц, с другой стороны – связанную с конкретными морфологическими характеристиками единиц.

По разным причинам все виды аналитических грамматических форм в корпусе представлены без объединения компонентов. Так, все глаголы сослагательного наклонения признаются омонимами по отношению к глаголам прошедшего времени. В действительности, конечно, показатель сослагательности – это одновременно служебное слово «бы» и форма глагола, совпадающая с формой прошедшего времени (т.е. омонимичная ей). Но служебное слово «бы», как известно, может присоединяться почти к любой словоформе в составе высказывания (составляя с ней единое фонетическое слово). Даже преодолев трудности его автоматического обнаружения, мы должны будем искать в тексте форму на «-л(а/о/и)», т.е. все равно эта форма, совпадающая с формой прошедшего времени, должна быть помечена как форма сослагательного наклонения.

В случае аналитической формы будущего времени глагол бы+ть маркируется как вспомогательный (VAX) с соответствующим морфологическим описанием, а другой компонент, несущий лексическое значение и формально совпадающий с инфинитивом, описывается как обычный инфинитив. Тем самым информация о грамматическом значении глагольной аналитической формы представлена только на уровне вспомогательного глагола.

То же при описании аналитических форм пассива типа бы+л сде+лан: форма от бы+ть маркируется как вспомогательный глагол, а второй компонент (в данном случае – сде+лан) как краткое причастие. По тому же принципу (необъединения компонентов) описываются и аналитические формы сравнительной степени прилагательных, наречий и предикативов: служебный компонент (са+мый, бо+лее, ме+нее) описывается как служебное слово (AUX), а второй компонент – как обычное прилагательное, наречие или предикатив.

Выделение категорий слова, не входящие в современный литературный язык (UNC), а также слова, представленные в латинской записи (NUL), обусловлено ориентацией на описание современного литературного языка, за пределами которого остаётся просторечие, вульгаризмы, жаргонизмы, диалектизмы и пр., а также действием принципа «каждой словоформе – морфологическое описание», в результате чего никакая запись, встречающаяся в тексте, не может быть в этом смысле проигнорирована.

Как можно видеть из представленного материала, при морфологическом описании словоформы конкретные значения грамматических категорий указываются в том случае, если наличествует парадигма в пределах данной категории, в противном случае в позиции соответствующей категории проставляется нуль. Так, нуль проставляется в описании отношения к форме (полная/краткая) у относительных и притяжательных прилагательных, большинства местоимений-прилагательных, не имеющих соотносительных кратких (а значит, не имеющих и полных) форм. По тому же принципу маркируются залоговые значения: если глагол непереходный, тем самым он (и все производные от него формы) находится вне категории залога, и соответственно в морфологическом описании в предусмотренном для категории залога месте проставляется нуль. Прямой связью между категорией переходности и категорией залога обусловлено и решение относить все собственно безличные глаголы типа тошни+ть, рва+ть, зноби+ть к непереходным, тогда как традиционно указанные глаголы рассматриваются как переходные на том основании, что они могут управлять винительным падежом без предлога.

Не является прямым следствием работы с корпусом, но тоже выступает как результат привлечения большого объема материала при необходимости всё «метить», вывод об одушевленности личных местоимений третьего лица. Казалось бы, эти местоимения нейтральны по отношению к признаку «одушевленность/неодушевленность»: о+н можно сказать и о человеке, и о любом предмете (о столе, о самолете). Однако формально эти местоимения все же приходится считать одушевленными: если бы это было не так, мы бы говорили ви+жу о+н (ви+жу оно+), а не ви+жу его+ и т.п. Таким образом, словоформа его+, например, может иметь в корпусе одно из следующих описаний:

его++н=PNS,3p,m,anim=,sg,ac}
его++н=PNS,3p,m,anim=,sg,gn}
его+{оно+=PNS,3p,n,anim=,sg,ac}
его+{оно+=PNS,3p,n,anim=,sg,gn}

При выборе технологии морфологической разметки текстов мы исходили из того, что данный корпус, подобно словарям или энциклопедиям, не должен иметь ошибок. Поэтому нами принята система разметки с использованием постоянно пополняемого словаря аннотированных словоформ. В этом случае самый первый текст полностью размечается вручную и по нему создается частотный словарь. Вслед за этим полученный словарь дополняется всеми возможными омонимами и используется при разметке последующих текстов с пополнением после каждого следующего текста. При наличии словаря процесс разметки происходит полуавтоматически с помощью специальной программы. Если конкретная словоформа текста представлена в словаре единственным вариантом, ее морфологическое описание переносится в размеченный текст без ведома оператора. При наличии в словаре нескольких омонимов все они предлагаются оператору для выбора. Наконец, отсутствующую в словаре словоформу оператор описывает вручную. Подобный процесс повторяется итеративно для каждого следующего текста, и по мере увеличения объема размеченного корпуса доля чисто ручной разметки сокращается.

 
E-mail Home