Корпус русского литературного языка

Наши ресурсы

Новости

Морфология

Транскрипция

Публикации

Источники

О проекте

Коллектив

Проект
«Национальный корпус
русского языка»
поддерживался
Российским Гуманитарным
Научным Фондом,
грант № 03-04-00226а
и частично программой
«Филология и информатика» РАН.

Руководитель проекта –
д.филол.н., проф., акад. РАО
Л.А.Вербицкая,
ответственный исполнитель –
д.филол.н., проф. В.Б.Касевич
(СПбГУ).

Помимо сотрудников
Санкт-Петербургского
государственного университета,
в работе участвовали также сотрудники
Института лингвистических
исследований РАН (СПб).

Уважаемый пользователь!

В настоящее время Вы имеете возможность работать со сбалансированным корпусом текстов объемом более 1-го млн. словоупотреблений. Все тексты корпуса акцентуированы (в них проставлено основное и вторичное ударение), а также восстановлена в правах буква «ё».

По корпусу создан частотный словарь акцентуированных словоформ, насчитывающий около 125 тыс. единиц.

Акцентуированный корпус:

поиск в словаре словоформ;
частотный словарь акцентуированных словоформ за исключением имен собственных (файл в формате Excel);
создание конкорданса по текстам корпуса;
создание конкорданса по текстам речевого корпуса (лучше - в Корпусе русской устной речи).

При обращении к словарю пользователь может задавать для поиска слово без символов акцентуации. В этом случае ему будут выданы все имеющиеся в словаре варианты заданного слова. Например, при запросе «чем» будут выданы следующие три варианта: «че+м» - местоимение, «че^м» - союз и «чем» - местоимение в сочетании «не+ с чем», когда по правилам орфоэпии ударение переносится на предлог.

Если при запросе установить флажок «не раличать е и ё», то будут выданы все имеющиеся варианты, как с «е», так и с «ё». Например, при запросе «села» и установленном флажке в ответ пользователь получит три варианта: «се+ла», «села+» и «сё+ла». В этих условия такие же ответы будут выданы и при запросе «сёла».

Поскольку тексты, включенные в корпус, и составленнный на их основе частотный словарь содержат составные слова (см. об этом в разделе Морфология), предусмотрена возможность поиска составных слов, содержащих слово, заданное в запросе. Для этого следует задействовать опцию «искать и в составных словах». Теперь при запросе, скажем, слова «другом» в ответах пользователь найдет «дру+гом», «друго+м» и множество составных слов типа «дру+г__за__дру+гом», «дру+г__с__дру+гом» и т.д.

В ответ на свой запрос пользователь получает таблицу, содержащую имеющиеся в словаре слова с их частотами по жанрам текстов, представленных в корпусе, и по всему корпусу в целом.

Помимо работы с частотным словарем пользователю предоставляется возможность создания конкорданса, т.е. набора примеров-цитат из текстов корпуса, содержащих заданное в запросе слово. На каждое слово будет выдана строка, содержащая это слово, а также две предшествующие и две следующие строки. С конкордансом пользователь имеет возможность работать либо непосредственно с сайта, либо может сохранить выданную броузером страницу для последующего анализа офф-лайн. Правила создания запроса примерно такие же, как при поиске в частотном словаре.

При работе с текстами драмы возможны расхождения между частотами словоформ, полученными по словарю и конкордансу: при создании словаря тексты авторских ремарок были отнесены к жанру беллетристики, а программа создания конкорданса этого не учитывает.

Различается работа с нижним-верхним регистром: если запрос задан только в нижнем регистре, программа работает в режиме игнорирования регистра; если слово запроса начинается в верхнем регистре, выдаются только реализации запрошенного слова.

E-mail

Home