Skip to content

evlisouski/parallel-corpora-proc

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Программа предназначена для обработки параллельного корпуса (исходный язык - английский, целевой язык - русский). Используя различные встроенные и пользовательские фильтры OpusFilter программа отфильтрует некачественные сегменты корпуса.

Для работы проекта необходимо в корне подключенного google диска создать папку paralell-corpora-proc внутри которой расположена директория code с следующими содержимым:

Директория configs - конфигурационные файлы в формате yaml. Директория custom_filters - пользовательские фильтры. Директория filtered_dataset - в этой директории создаются директории с именем шага согласно конфигурационному YAML файлу. Внутри каждой будет храниться два файла параллельного корпуса. Директория scripts - вспомогательные скрипты для работы проекта. Директория source_dataset - параллельный корпус для обработки

About

Pipeline for filtering the corpus of text translation.

Topics

Resources

Stars

Watchers

Forks

Contributors