Skip to content

eIGato/parsers

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Парсеры для некоторых русскоязычных сайтов

На данный момент в репозитории только один парсер. Это парсер мобильных кодов. Позднее будут добавлены ещё один или два.

Установка

Для установки требуется Ubuntu 14.04 или 16.04 с доступом в интернет.

На компьютере также должны быть установлены следующие пакеты:

  • git
  • postfix
  • virtualenv

Нужно склонировать репозиторий в любую подходящую директорию (например в /opt/parsers) и запустить скрипт установки:

cd /opt
git clone git@github.com:eIGato/parsers.git
bash parsers/setup.sh

Запуск

Перед запуском можно активировать виртуальное окружение командой:

source .venv/bin/activate

В этом случае можно будет использовать более короткую команду python вместо /opt/parsers/.venv/bin/python.

Запуск возможен в нескольких вариантах:

# Выведет результат парсинга на stdout:
python mobile_code_parser.py
# Выведет результат парсинга в файл table.csv в кодировке Windows:
python mobile_code_parser.py --out table.csv --encoding cp1251
# То же самое, но системными средствами:
PYTHONENCODING=cp1251 python mobile_code_parser.py > table.csv
# Выведет результат парсинга в директорию results, сравнит со старым файлом, и в случае изменений отправит по почте двум получателям:
python mobile_code_parser.py --encoding cp1251 --mail alice@example.com --mail bob@example.com
# Примечание: если изменений нет, на почту будет отправлено соответствующее уведомление.

Автоматизация

Можно автоматизировать процесс обновления репозитория и запуска рассылки, добавив в /etc/crontab ежедневный запуск (вместо user нужно указать пользователя, которому принадлежит директория с репозиторием):

13 4 * * * user cd /opt/parsers && git pull && .venv/bin/python mobile_code_parser.py --encoding cp1251 --mail alice@example.com

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published