Программа предназначена для обработки параллельного корпуса (исходный язык - английский, целевой язык - русский). Используя различные встроенные и пользовательские фильтры OpusFilter программа отфильтрует некачественные сегменты корпуса.
Для работы проекта необходимо в корне подключенного google диска создать папку paralell-corpora-proc внутри которой расположена директория code с следующими содержимым:
Директория configs - конфигурационные файлы в формате yaml.
Директория custom_filters - пользовательские фильтры.
Директория filtered_dataset - в этой директории создаются директории с именем шага согласно конфигурационному YAML файлу. Внутри каждой будет храниться два файла параллельного корпуса.
Директория scripts - вспомогательные скрипты для работы проекта.
Директория source_dataset - параллельный корпус для обработки