Event-based Facial Expression Recognition

Vision Transformer (ViT) for Facial Expression Recognition with Event-Based Cameras

This repository contains a training script (vit_train.py) for a Vision Transformer (vit_b_16) model using grayscale images generated from an event-based camera. The goal is to classify facial expressions in the CK+ dataset, preprocessed into frame sequences.

Dataset Structure

The dataset must be organized as follows:

output/e-ck+_frames_process_100fps/
├── Train_Set/
│   ├── 0/  # Class: Anger
│   ├── 1/  # Class: Contempt
│   ├── 2/  # Class: Disgust
│   ├── 3/  # Class: Fear
│   ├── 4/  # Class: Happy
│   ├── 5/  # Class: Sadness
│   └── 6/  # Class: Surprise
└── Test_Set/
    ├── 0/
    ├── 1/
    └── ...

Each subfolder contains .png grayscale event frames corresponding to a specific facial expression class.

Installation

Make sure you have Python 3.7+ installed and install the required dependencies:

pip install torch torchvision tqdm matplotlib seaborn scikit-learn tensorboard

Training

Run the training script:

python vit_train.py

A result directory will be automatically created under:

results/vit_e-ckplus_100fps_<timestamp>/

This directory will contain:

best_model_vit.pth: Best model based on validation accuracy
train_loss.png, accuracy.png: Training/validation plots
confusion_matrix_best_model.png: Final normalized confusion matrix
Raw and normalized .txt confusion matrix files
TensorBoard logs
Training metrics and hyperparameters in .txt and .json formats

Hyperparameters

Model: vit_b_16
Input size: 224x224 pixels (grayscale converted to RGB if pretrained)
Pretrained: ImageNet (use_pretrained=True)
Optimizer: AdamW
Learning rate: 1e-4
Epochs: 20
Batch size: 4
Augmentations: Random crop, flip, rotation

TensorBoard

Launch TensorBoard to monitor training:

tensorboard --logdir results/vit_e-ckplus_100fps_<timestamp>/tensorboard

Output Example

results/
└── vit_e-ckplus_100fps_YYYYMMDD_HHMMSS/
    ├── best_model_vit.pth
    ├── train_loss.txt
    ├── train_acc.txt
    ├── val_acc.txt
    ├── accuracy.png
    ├── train_loss.png
    ├── confusion_matrix_best_model.png
    ├── confusion_matrix_raw.txt
    ├── confusion_matrix_normalized.txt
    ├── hyperparameters.json
    ├── model_architecture.txt
    └── tensorboard/

License

This project is intended for academic and research use.

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
eck		eck
utils-results		utils-results
utils		utils
yaml		yaml
.gitignore		.gitignore
Dockerfile		Dockerfile
LICENSE		LICENSE
README.md		README.md
get_norm_dataset.py		get_norm_dataset.py
gnn_lstm_train.py		gnn_lstm_train.py
gnn_lstm_train_batchers.py		gnn_lstm_train_batchers.py
gnn_train.py		gnn_train.py
requirements.txt		requirements.txt
run_docker.sh		run_docker.sh
tie_gnn_train.py		tie_gnn_train.py
train copy.py		train copy.py
vit_bilstm_train_tie.py		vit_bilstm_train_tie.py
vit_bilstm_train_tie_opt.py		vit_bilstm_train_tie_opt.py
vit_lstm_train_tie.py		vit_lstm_train_tie.py
vit_train_acc.py		vit_train_acc.py
vit_train_tie.py		vit_train_tie.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Event-based Facial Expression Recognition

Vision Transformer (ViT) for Facial Expression Recognition with Event-Based Cameras

Dataset Structure

Installation

Training

Hyperparameters

TensorBoard

Output Example

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Event-based Facial Expression Recognition

Vision Transformer (ViT) for Facial Expression Recognition with Event-Based Cameras

Dataset Structure

Installation

Training

Hyperparameters

TensorBoard

Output Example

License

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages