Списки русских слов с их частотностью.
Файл 100_000_russian_wordlist.txt представляет собой список из ~100 000 уникальных русских словоформ, снабжённых оценочной частотностью. Частотность нормализована по шкале от 999 999 (наиболее частотное слово) до 1 (наименее частотное).
Список составлен на основе корпусных данных, включающих разнообразные тексты: художественную литературу, публицистику, технические статьи, интернет-форумы, рецепты и другие типы текстов на русском языке.
Все слова отсортированы по убыванию частотности. Для унификации буква Ё в словах была заменена на Е. При предварительной очистке были удалены имена собственные (имена, фамилии и географические названия), любые символы, не относящиеся к кириллице, а также исправлены орфографические ошибки.
Несмотря на проведённую очистку и фильтрацию, список может содержать отдельные ошибки. Любые улучшения, исправления или дополнения приветствуются.
Файл 100_000_russian_wordlist.csv представляет собой сконвертированный в формат CSV файл 100_000_russian_wordlist.txt.