Skip to content

quadripartite/RussianWordlist

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 

Repository files navigation

RussianWordlist

Списки русских слов с их частотностью.

100_000_russian_wordlist.txt

Файл 100_000_russian_wordlist.txt представляет собой список из ~100 000 уникальных русских словоформ, снабжённых оценочной частотностью. Частотность нормализована по шкале от 999 999 (наиболее частотное слово) до 1 (наименее частотное).

Список составлен на основе корпусных данных, включающих разнообразные тексты: художественную литературу, публицистику, технические статьи, интернет-форумы, рецепты и другие типы текстов на русском языке.

Все слова отсортированы по убыванию частотности. Для унификации буква Ё в словах была заменена на Е. При предварительной очистке были удалены имена собственные (имена, фамилии и географические названия), любые символы, не относящиеся к кириллице, а также исправлены орфографические ошибки.

Несмотря на проведённую очистку и фильтрацию, список может содержать отдельные ошибки. Любые улучшения, исправления или дополнения приветствуются.

100_000_russian_wordlist.csv

Файл 100_000_russian_wordlist.csv представляет собой сконвертированный в формат CSV файл 100_000_russian_wordlist.txt.

About

Списки русских слов с их частотностью.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors