Skip to content

Imageman/aneki

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 

Repository files navigation

aneki

Маленький проект по автоматическому разбиению на кластеры кучи коротких анекдотов.

anek_html.py содержит функции process_all_pages_anekdotovnet и process_all_pages_veselun для скачивания анекдотов с двух сайтов. После этого они записываются в json, который нужно вручную очистить от разного мусора (к примеру от строк вида '</br>').

Анекдоты записать в data.json (UTF-8 без BOM).

При помощи функции recursive_split мы разбиваем тексты на примерно одинаковые кластера.

Функция delete_dubles делает очистку от совсем похожих анекдотов, но функция будет пропускать одинаковые анекдоты оформленные по разному.

К примеру анекдот: — Мам, хочу татуировку… — Неси ремень, щас набьем!

и анекдтот:

  • Мам, хочу татуировку!
  • Неси ремень, сейчас с отцом набьем.

хоть и определяются как очень похожие, но не уверенно (score 0.48), поэтому этот дубль не будет удален.

Чуть подробнее читать https://imageman72.livejournal.com/49257.html и https://imageman72.livejournal.com/49467.html

About

Маленький проект по автоматическому разбиению на кластеры кучи коротких анекдотов

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages