Этот проект предназначен для генерации подписей к изображениям с последующим переводом на русский язык. Он использует
модель VisionEncoderDecoderModel из библиотеки transformers для генерации описаний и GoogleTranslator
из deep-translator для перевода.
-
Клонируйте репозиторий:
git clone https://github.com/Bagi4-source/imageCaptioning.git cd imageCaptioning -
Создайте и активируйте виртуальное окружение:
python -m venv .venv source .venv/bin/activate # Для Linux/MacOS .venv\Scripts\activate # Для Windows
-
Установите зависимости:
Убедитесь, что у вас установлен
pipи выполните:pip install -r requirements.txt
- Сборка
docker build -t image-captioning -f Dockerfile .- Запуск
docker run -v <путь к папке с картинками>:/app/images image-captioning
docker run -v images:/app/images image-captioning-
Подготовьте изображения:
Поместите изображения, для которых вы хотите сгенерировать подписи, в папку
images. -
Запустите скрипт:
Выполните команду:
python main.py
Скрипт обработает все изображения в папке
images, сгенерирует для них описания и переведёт их на русский язык. -
Результаты:
Описания изображений будут выведены в консоль.
- Python 3.8 или выше
transformers==4.47.1torch==2.5.1torchvision==0.20.1deep-translator==1.11.4- Другие зависимости указаны в
requirements.txt
- Убедитесь, что у вас есть доступ к интернету для загрузки модели и использования API перевода.
- Если у вас нет модели, загрузите её в папку
modelили укажите путь к модели в коде.
Этот проект распространяется под лицензией MIT. Подробности смотрите в файле LICENSE.
