Национальный корпус

Национальный корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.

Национальный корпус создается лингвистами для научных исследований и обучения языку.

Национальный корпус русского языкавнешняя ссылка используется поисковой системой Яндекс? при разборе поискового запроса? от посетителя для выявления синонимов, оммонимов и возможных словоформ.

Состав национальный корпус русского языка:

Подкорпус Число текстов Число предложений Число словоупотреблений % словоупотреблений
Основной корпус 76 882 17 574 752 209 198 275 57.3%
- в том числе со снятой омонимией 2 147 516 852 5 944 188 1.6%
Газетный корпус 181 175 8 553 495 113 292 003 31.0%
Диалектный корпус 197 20 273 194 283 0.1%
Обучающий корпус 229 65 666 664 751 0.2%
Параллельный корпус 370 1 609 609 24 022 437 6.6%
Поэтический корпус 41 448 638 861 6 738 474 1.8%
Устный корпус 3 034 1 604 626 10 122 579 2.8%
Мультимедийный корпус 31 741 148 619 648 576 0.2%
Всего: 335 076 30 215 901 364 881 378 100%

Пример распределения слова «сайт» по годам (частота на миллион словоформ)

Пример распределения слова САЙТ по годам

 

Получить консультацию
Получить коммерческое предложение Заказать аудит сайта