Data-driven optimization system for maximizing profit through intelligent discount strategies on Amazon US marketplace
A dietary supplement brand selling on Amazon US faced a critical pricing decision: What discount should be applied to Double Pack products to maximize net profit?
The company offers products in two variations:
- Single Pack — base variant (e.g., 120 capsules)
- Double Pack — bundle with discount (e.g., 240 capsules)
Key challenges:
- ❌ Too large discount → cannibalization of Single Pack sales
- ❌ Too small discount → customers don't purchase Double Pack
- ❌ No data-driven approach → guessing optimal discount rate
- ❌ Risk of losing margin or conversion
A machine learning-powered optimization system that:
✅ Analyzes historical Amazon Business Reports data ✅ Calculates 7 custom KPI metrics for e-commerce ✅ Builds polynomial regression models (3rd order) ✅ Tests 7 different optimization methods (A-G) ✅ Recommends optimal discount for each product ✅ Validates results using MAPE, RMSE, R² metrics
| Metric | Value |
|---|---|
| 💰 Net Profit Increase | +24.85% |
| 💵 Additional Monthly Profit | $25,000 - $30,000 |
| 📦 Products Optimized | 20+ SKUs |
| 🎯 Average Model Accuracy (MAPE) | <15% |
- Historical Discount: 12%
- Recommended Discount: 16.5% (Method B - Min MAPE)
- Profit Increase: +28% vs current level
┌─────────────────┐
│ Amazon Reports │ Sessions, Orders, Sales (CSV)
│ (6 months) │
└────────┬────────┘
│
▼
┌─────────────────┐
│ Aggregation │ Combine Total + B2B metrics
│ │ Calculate costs, profit, prices
└────────┬────────┘
│
▼
┌─────────────────┐
│ KPI Calculation │ 7 Custom Metrics (DP_DR, DP_CR, etc.)
│ │
└────────┬────────┘
│
▼
┌─────────────────┐
│ ML Modeling │ Polynomial Regression (3rd order)
│ (7 Methods) │ scipy.optimize.minimize_scalar
└────────┬────────┘
│
▼
┌─────────────────┐
│ Business Report │ 5 Excel Sheets with Recommendations
│ │
└─────────────────┘
Models relationships between discount rate and KPIs:
y = a₀ + a₁·x + a₂·x² + a₃·x³where:
x = DP_DR(discount rate)y = KPI(conversion, profit, traffic, etc.)
Each method builds a different profit function:
| Method | Optimization Target | Formula |
|---|---|---|
| A | Conversion Rate | Net_Profit = DP_CR(DR) × Sessions × Margin |
| B | Traffic Attraction | Net_Profit = DP_TAR(DR) × Sessions_SP × DP_CR × Margin |
| C | Cross-Sell Conversion | Net_Profit = DP_CSC(DR) × Sessions_SP × Margin |
| D | Net Profit Share | Net_Profit = DP_NPS(DR) × Total_Profit_Avg |
| E | Profit Per Session DP | Net_Profit = DP_NPPS(DR) × Sessions_DP_Avg |
| F | Cross-Sell Profit | Net_Profit = DP_CSPPS(DR) × Sessions_SP_Avg |
| G | Direct Regression | Net_Profit = poly_profit(DR) |
Uses scipy.optimize.minimize_scalar with bounded search:
optimal_discount = minimize_scalar(
lambda x: -net_profit_function(x),
bounds=[lower_bound, upper_bound],
method='bounded'
)- MAPE (Mean Absolute Percentage Error) — forecast accuracy
- RMSE (Root Mean Square Error) — prediction error
- R² (Coefficient of Determination) — model quality
| Metric | Description | Type |
|---|---|---|
| DP_DR | Double Pack Discount Rate | Marketing |
| DP_CR | Conversion Rate | Marketing |
| DP_TAR | Traffic Attraction Rate | Marketing |
| DP_CSC | Cross-Single Conversion | Marketing |
| DP_NPS | Net Profit Share | Financial |
| DP_NPPS | Net Profit Per Session DP | Financial |
| DP_CSPPS | Cross-Single Profit Per Session | Financial |
- Python 3.11+ — programming language
- pandas — data processing, aggregation, pivot tables
- numpy — mathematical operations, polynomial fitting
- scipy — optimization algorithms (
minimize_scalar) - statsmodels — statistical analysis
- openpyxl — Excel files with formatting
- matplotlib — data visualization
- seaborn — statistical plots
- jupyter — interactive notebooks
amazon_discount_research/
│
├── business_reports/ # Final business reports and recommendations
│ ├── documents/
│ │ ├── All_Products_Discount_Recommendations.xlsx
│ │ ├── All_Products_KPI.xlsx
│ │ └── research_report_*.html
│ └── figures/ # Charts and visualizations
│
├── data/
│ ├── raw/ # Amazon Business Reports (CSV)
│ │ └── D-Mannose Capsules (example product)/
│ │ ├── D-Mannose 120 Capsules (Single Pack)/
│ │ └── D-Mannose 240 Capsules (Double Pack)/
│ └── processed/ # Processed data with calculated KPIs
│
├── docs/ # Technical documentation
│
├── notebooks/
│ └── exploratory/ # Jupyter notebooks with research
│ ├── 01_01_primary_research_by_b_complex.ipynb
│ ├── 01_02_statistical_analysis_by_mannose.ipynb
│ ├── 02_01_product_conversion_benchmarking.ipynb
│ └── 02_02_production_model.ipynb
│
├── src/
│ ├── data_scripts/
│ │ ├── mass_product_aggregation.py # Data aggregation SP vs DP
│ │ └── mass_product_kpi.py # Calculate 7 KPI metrics
│ │
│ └── models_training/
│ └── amazon_dp_dr_model_production.py # ML optimization model (7 methods)
│
├── CLAUDE.md # Instructions for Claude Code
├── CONTEXT.md # Full project context
├── README.md # This file
├── LICENSE.txt # Proprietary license
├── requirements.txt # Python dependencies
├── environment.yml # Conda environment
└── references.txt # Methodology references
- Python 3.11 or higher
- pip or conda package manager
# Clone repository
git clone https://github.com/radyslav-datascience/amazon_discount_research.git
cd amazon_discount_research
# Install dependencies
pip install -r requirements.txt# Clone repository
git clone https://github.com/radyslav-datascience/amazon_discount_research.git
cd amazon_discount_research
# Create conda environment
conda env create -f environment.yml
conda activate researchpython src/data_scripts/mass_product_aggregation.pyOutputs: All_Products_Aggregation.xlsx
python src/data_scripts/mass_product_kpi.pyOutputs: All_Products_KPI.xlsx
python src/models_training/amazon_dp_dr_model_production.pyOutputs: optimization_results.xlsx with 5 sheets:
- Full Results — all methods for all products
- Min Discount — conservative strategy (smallest discount)
- Min MAPE — best forecast accuracy
- Min RMSE — smallest prediction error
- Average Metrics — ensemble approach (average across methods)
The system generates Excel reports with:
| Product | ASIN | Optimal Discount | Method | Predicted Profit | MAPE | RMSE |
|---|---|---|---|---|---|---|
| D-Mannose 120/240 | B08X1Y2Z3B | 16.5% | Method-B | $8,542 | 12.3% | $421 |
| B-Complex 60/120 | B07K9M3N4P | 14.2% | Method-A | $6,234 | 10.8% | $312 |
| ... | ... | ... | ... | ... | ... | ... |
For each product and optimal discount:
- Predicted Conversion Rate (DP_CR)
- Predicted Traffic Attraction (DP_TAR)
- Predicted Cross-Sell Rate (DP_CSC)
- Predicted Net Profit (DP)
- CONTEXT.md — Full project context (business problem, data, methodology)
- CLAUDE.md — Instructions for Claude Code
- Technical Specifications — Detailed technical documentation
- Research Notebooks — Jupyter notebooks with analysis
- Data Science Methods (Notion) — Methodology deep-dive
This project showcases:
- ✅ Business Analytics — translating business problems into data science solutions
- ✅ E-commerce Domain Expertise — Amazon marketplace, unit economics, pricing
- ✅ Data Engineering — ETL pipelines, data aggregation, cleaning
- ✅ Feature Engineering — creating custom KPI metrics from raw data
- ✅ Machine Learning — polynomial regression, optimization algorithms
- ✅ Statistical Validation — MAPE, RMSE, R² analysis
- ✅ Python Development — pandas, numpy, scipy, openpyxl
- ✅ Automation — scalable scripts for 20+ products
- ✅ Business Reporting — Excel dashboards with actionable insights
Radyslav Lomanov
Data Scientist | Business Analyst | E-commerce Analytics Specialist
- 📧 Email: lomanov.mail@gmail.com
- 📱 Phone: +380950359405
- 💬 Telegram: @radyslav_datascience
- 🔗 All Links: linktr.ee/radyslav.datascience
- 💼 Portfolio Website: tr.ee/radyslav-portfolio-en
- 📚 Data Science Methods: tr.ee/radyslav-datascience-notion
- 💻 GitHub: github.com/radyslav-datascience
This project is proprietary and confidential. All rights reserved.
Copyright © 2025 Radyslav Lomanov
Unauthorized reproduction, distribution, or commercial use is strictly prohibited without prior written permission from the author.
For collaboration inquiries or licensing arrangements, please contact:
- Email: lomanov.mail@gmail.com
- Telegram: https://t.me/radyslav_datascience
See LICENSE.txt for full terms.
This project was developed as part of a real client engagement for an Amazon US marketplace seller. All sensitive client data has been anonymized. The methodologies and results presented are authentic and reflect production-level work.
Система оптимізації знижок на основі даних для максимізації прибутку на маркетплейсі Amazon US
Бренд дієтичних добавок на Amazon US зіткнувся з критичним питанням ціноутворення: Яку знижку встановити на Double Pack продукти, щоб максимізувати чистий прибуток?
Компанія пропонує продукти в двох варіантах:
- Single Pack — базовий варіант (наприклад, 120 капсул)
- Double Pack — подвійний пакет зі знижкою (наприклад, 240 капсул)
Ключові виклики:
- ❌ Занадто велика знижка → канібалізація продажів Single Pack
- ❌ Занадто мала знижка → клієнти не купують Double Pack
- ❌ Відсутність data-driven підходу → вгадування оптимальної знижки
- ❌ Ризик втрати маржі або конверсії
Система оптимізації на основі машинного навчання, яка:
✅ Аналізує історичні дані Amazon Business Reports ✅ Розраховує 7 власних KPI метрик для e-commerce ✅ Будує моделі поліноміальної регресії (3-го порядку) ✅ Тестує 7 різних методів оптимізації (A-G) ✅ Рекомендує оптимальну знижку для кожного продукту ✅ Валідує результати через метрики MAPE, RMSE, R²
| Метрика | Значення |
|---|---|
| 💰 Збільшення чистого прибутку | +24.85% |
| 💵 Додатковий місячний прибуток | $25,000 - $30,000 |
| 📦 Оптимізовано продуктів | 20+ SKU |
| 🎯 Середня точність моделі (MAPE) | <15% |
- Історична знижка: 12%
- Рекомендована знижка: 16.5% (Method B - Min MAPE)
- Збільшення прибутку: +28% відносно поточного рівня
┌─────────────────┐
│ Amazon Reports │ Sessions, Orders, Sales (CSV)
│ (6 місяців) │
└────────┬────────┘
│
▼
┌─────────────────┐
│ Агрегація │ Об'єднання Total + B2B метрик
│ │ Розрахунок витрат, прибутку, цін
└────────┬────────┘
│
▼
┌─────────────────┐
│ Розрахунок KPI │ 7 власних метрик (DP_DR, DP_CR тощо)
│ │
└────────┬────────┘
│
▼
┌─────────────────┐
│ ML Моделювання │ Поліноміальна регресія (3-й порядок)
│ (7 методів) │ scipy.optimize.minimize_scalar
└────────┬────────┘
│
▼
┌─────────────────┐
│ Бізнес-звіт │ 5 Excel листів з рекомендаціями
│ │
└─────────────────┘
Моделює залежності між рівнем знижки та KPI:
y = a₀ + a₁·x + a₂·x² + a₃·x³де:
x = DP_DR(рівень знижки)y = KPI(конверсія, прибуток, трафік тощо)
Кожен метод будує різну функцію прибутку:
| Метод | Ціль оптимізації | Формула |
|---|---|---|
| A | Коефіцієнт конверсії | Net_Profit = DP_CR(DR) × Sessions × Margin |
| B | Залучення трафіку | Net_Profit = DP_TAR(DR) × Sessions_SP × DP_CR × Margin |
| C | Крос-продаж | Net_Profit = DP_CSC(DR) × Sessions_SP × Margin |
| D | Частка чистого прибутку | Net_Profit = DP_NPS(DR) × Total_Profit_Avg |
| E | Прибуток на сесію DP | Net_Profit = DP_NPPS(DR) × Sessions_DP_Avg |
| F | Прибуток крос-продажу | Net_Profit = DP_CSPPS(DR) × Sessions_SP_Avg |
| G | Пряма регресія | Net_Profit = poly_profit(DR) |
Використовується scipy.optimize.minimize_scalar з обмеженим пошуком:
optimal_discount = minimize_scalar(
lambda x: -net_profit_function(x),
bounds=[lower_bound, upper_bound],
method='bounded'
)- MAPE (Mean Absolute Percentage Error) — точність прогнозу
- RMSE (Root Mean Square Error) — похибка передбачення
- R² (Coefficient of Determination) — якість моделі
| Метрика | Опис | Тип |
|---|---|---|
| DP_DR | Рівень знижки Double Pack | Маркетинг |
| DP_CR | Коефіцієнт конверсії | Маркетинг |
| DP_TAR | Коефіцієнт залучення трафіку | Маркетинг |
| DP_CSC | Крос-конверсія з Single Pack | Маркетинг |
| DP_NPS | Частка чистого прибутку | Фінанси |
| DP_NPPS | Чистий прибуток на сесію DP | Фінанси |
| DP_CSPPS | Прибуток крос-продажу на сесію | Фінанси |
- Python 3.11+ — мова програмування
- pandas — обробка даних, агрегація, pivot таблиці
- numpy — математичні операції, polynomial fitting
- scipy — алгоритми оптимізації (
minimize_scalar) - statsmodels — статистичний аналіз
- openpyxl — Excel файли з форматуванням
- matplotlib — візуалізація даних
- seaborn — статистичні графіки
- jupyter — інтерактивні notebooks
amazon_discount_research/
│
├── business_reports/ # Фінальні бізнес-звіти та рекомендації
│ ├── documents/
│ │ ├── All_Products_Discount_Recommendations.xlsx
│ │ ├── All_Products_KPI.xlsx
│ │ └── research_report_*.html
│ └── figures/ # Графіки та візуалізації
│
├── data/
│ ├── raw/ # Amazon Business Reports (CSV)
│ │ └── D-Mannose Capsules (example product)/
│ │ ├── D-Mannose 120 Capsules (Single Pack)/
│ │ └── D-Mannose 240 Capsules (Double Pack)/
│ └── processed/ # Оброблені дані з розрахованими KPI
│
├── docs/ # Технічна документація
│
├── notebooks/
│ └── exploratory/ # Jupyter notebooks з дослідженнями
│ ├── 01_01_primary_research_by_b_complex.ipynb
│ ├── 01_02_statistical_analysis_by_mannose.ipynb
│ ├── 02_01_product_conversion_benchmarking.ipynb
│ └── 02_02_production_model.ipynb
│
├── src/
│ ├── data_scripts/
│ │ ├── mass_product_aggregation.py # Агрегація даних SP vs DP
│ │ └── mass_product_kpi.py # Розрахунок 7 KPI метрик
│ │
│ └── models_training/
│ └── amazon_dp_dr_model_production.py # ML модель оптимізації (7 методів)
│
├── CLAUDE.md # Інструкції для Claude Code
├── CONTEXT.md # Повний контекст проекту
├── README.md # Цей файл
├── LICENSE.txt # Proprietary ліцензія
├── requirements.txt # Python залежності
├── environment.yml # Conda environment
└── references.txt # Посилання на методологію
- Python 3.11 або вище
- pip або conda менеджер пакетів
# Клонувати репозиторій
git clone https://github.com/radyslav-datascience/amazon_discount_research.git
cd amazon_discount_research
# Встановити залежності
pip install -r requirements.txt# Клонувати репозиторій
git clone https://github.com/radyslav-datascience/amazon_discount_research.git
cd amazon_discount_research
# Створити conda environment
conda env create -f environment.yml
conda activate researchpython src/data_scripts/mass_product_aggregation.pyВиводить: All_Products_Aggregation.xlsx
python src/data_scripts/mass_product_kpi.pyВиводить: All_Products_KPI.xlsx
python src/models_training/amazon_dp_dr_model_production.pyВиводить: optimization_results.xlsx з 5 листами:
- Full Results — всі методи для всіх продуктів
- Min Discount — консервативна стратегія (найменша знижка)
- Min MAPE — найкраща точність прогнозу
- Min RMSE — найменша похибка передбачення
- Average Metrics — ансамблевий підхід (середнє по методах)
Система генерує Excel звіти з:
| Продукт | ASIN | Оптимальна знижка | Метод | Прогноз прибутку | MAPE | RMSE |
|---|---|---|---|---|---|---|
| D-Mannose 120/240 | B08X1Y2Z3B | 16.5% | Method-B | $8,542 | 12.3% | $421 |
| B-Complex 60/120 | B07K9M3N4P | 14.2% | Method-A | $6,234 | 10.8% | $312 |
| ... | ... | ... | ... | ... | ... | ... |
Для кожного продукту та оптимальної знижки:
- Прогнозний коефіцієнт конверсії (DP_CR)
- Прогнозне залучення трафіку (DP_TAR)
- Прогнозний крос-продаж (DP_CSC)
- Прогнозний чистий прибуток (DP)
- CONTEXT.md — Повний контекст проекту (бізнес-проблема, дані, методологія)
- CLAUDE.md — Інструкції для Claude Code
- Технічні специфікації — Детальна технічна документація
- Дослідницькі ноутбуки — Jupyter notebooks з аналізом
- Методи Data Science (Notion) — Глибоке занурення в методологію
Цей проект демонструє:
- ✅ Бізнес-аналітика — переклад бізнес-проблем у data science рішення
- ✅ Експертиза в e-commerce — Amazon marketplace, unit economics, pricing
- ✅ Data Engineering — ETL pipeline, агрегація даних, очищення
- ✅ Feature Engineering — створення власних KPI метрик з сирих даних
- ✅ Machine Learning — поліноміальна регресія, алгоритми оптимізації
- ✅ Статистична валідація — аналіз MAPE, RMSE, R²
- ✅ Python розробка — pandas, numpy, scipy, openpyxl
- ✅ Автоматизація — масштабовані скрипти для 20+ продуктів
- ✅ Бізнес-звітність — Excel дашборди з практичними інсайтами
Радислав Ломанов
Data Scientist | Business Analyst | E-commerce Analytics Specialist
- 📧 Email: lomanov.mail@gmail.com
- 📱 Телефон: +380950359405
- 💬 Telegram: @radyslav_datascience
- 🔗 Всі посилання: linktr.ee/radyslav.datascience
- 💼 Сайт портфоліо: tr.ee/radyslav-portfolio-en
- 📚 Методи Data Science: tr.ee/radyslav-datascience-notion
- 💻 GitHub: github.com/radyslav-datascience
Цей проект є власністю автора та конфіденційним. Всі права захищені.
Copyright © 2025 Radyslav Lomanov
Несанкціоноване відтворення, поширення або комерційне використання суворо заборонено без попереднього письмового дозволу автора.
Для питань співпраці або ліцензування зверніться:
- Email: lomanov.mail@gmail.com
- Telegram: https://t.me/radyslav_datascience
Дивіться LICENSE.txt для повних умов.
Цей проект було розроблено в рамках реального замовлення клієнта — продавця на маркетплейсі Amazon US. Всі конфіденційні дані клієнта анонімізовано. Представлені методології та результати є автентичними та відображають роботу продакшн-рівня.
Останнє оновлення: 2025-11-24