Маленький проект по автоматическому разбиению на кластеры кучи коротких анекдотов.
anek_html.py содержит функции process_all_pages_anekdotovnet и process_all_pages_veselun для скачивания анекдотов с двух сайтов. После этого они записываются в json, который нужно вручную очистить от разного мусора (к примеру от строк вида '</br>').
Анекдоты записать в data.json (UTF-8 без BOM).
При помощи функции recursive_split мы разбиваем тексты на примерно одинаковые кластера.
Функция delete_dubles делает очистку от совсем похожих анекдотов, но функция будет пропускать одинаковые анекдоты оформленные по разному.
К примеру анекдот: — Мам, хочу татуировку… — Неси ремень, щас набьем!
и анекдтот:
- Мам, хочу татуировку!
- Неси ремень, сейчас с отцом набьем.
хоть и определяются как очень похожие, но не уверенно (score 0.48), поэтому этот дубль не будет удален.
Чуть подробнее читать https://imageman72.livejournal.com/49257.html и https://imageman72.livejournal.com/49467.html