Witness Evals - Training Dataset for Witness Attestation Framework

This repository contains a comprehensive training dataset for fine-tuning large language models to become experts in the Witness supply chain attestation framework.

Overview

The dataset is designed to train models to:

Instrument CI/CD pipelines with witness run commands
Create policy documents for attestation verification
Write Rego policies for all attestors in go-witness
Design multi-step workflows with cross-step validation
Handle security scenarios including tampering detection and policy enforcement

Dataset Structure

witness-evals/
├── data/
│   ├── attestors/           # Per-attestor training examples
│   │   ├── commandrun.jsonl # Command execution attestor
│   │   ├── git.jsonl        # Git repository attestor
│   │   ├── environment.jsonl
│   │   └── material-product.jsonl
│   ├── policies/            # Policy creation examples
│   │   └── policy-creation.jsonl
│   ├── workflows/           # Multi-step pipeline examples
│   │   └── ci-cd-workflows.jsonl
│   └── security/            # Attack/defense scenarios
├── scripts/
│   ├── generate_dataset.py  # Generate training data
│   └── validate_dataset.py  # Validate JSONL format
└── docs/
    └── FINE_TUNING_GUIDE.md

Dataset Format

All training examples follow the OpenAI fine-tuning format (JSONL with messages):

{
  "messages": [
    {
      "role": "system",
      "content": "You are an expert in the Witness supply chain attestation framework..."
    },
    {
      "role": "user",
      "content": "How do I attest a Go build with commandrun tracking?"
    },
    {
      "role": "assistant",
      "content": "Here's how to attest a Go build...\n\n```bash\nwitness run --step build...\n```"
    }
  ]
}

Current Dataset Stats

Verified Dataset (PRIMARY - Production Ready)

Total examples: 10,000 ✅
Verification: 100% passed witness verify
File size: 26 MB
Attestors covered: 15 combinations
Quality: Formally verified

Synthetic Dataset

Total examples: 10,000
File size: 20 MB
Quality: Programmatically generated

Manual Dataset (Baseline)

Total examples: 22
Attestors covered: commandrun, git, environment, material, product
Quality: Hand-crafted

Coverage by Category

Category	Examples	Description
commandrun	6	Command execution, tracing, exit code validation
git	5	Repository attestation, branch validation, signatures
environment	3	System info, env vars, hostname restrictions
material-product	3	Input/output files, cross-step validation
policies	3	Policy document structure, multi-step, Rego integration
workflows	2	GitHub Actions, container builds

Quick Start

1. Generate Dataset

python3 scripts/generate_dataset.py

2. Validate Dataset

python3 scripts/validate_dataset.py

3. Fine-Tune a Model

See docs/FINE_TUNING_GUIDE.md for detailed instructions on fine-tuning with:

Llama 3
Mistral
Other open-source models

Adding More Examples

To expand the dataset:

Edit scripts/generate_dataset.py:
- Add new generate_*_examples() methods
- Cover additional attestors (aws, gitlab, github, oci, sbom, etc.)
- Add security/adversarial scenarios
Regenerate:
```
python3 scripts/generate_dataset.py
```
Validate:
```
python3 scripts/validate_dataset.py
```

Attestors to Add

The following attestors from go-witness need examples:

Contributing

To contribute examples:

Add examples to appropriate category in generate_dataset.py
Follow the existing format (system + user + assistant messages)
Include:
- Complete witness run/witness verify commands
- Rego policy examples
- Explanations of captured fields
Run validation before submitting
Ensure no sensitive data in examples

Model Training Guidelines

Recommended Hyperparameters

For Llama 3 / Mistral fine-tuning:

base_model: meta-llama/Llama-3-8B
learning_rate: 2e-5
batch_size: 4
num_epochs: 3
warmup_steps: 100
gradient_accumulation_steps: 4
max_seq_length: 2048

Evaluation

After fine-tuning, evaluate the model on:

Accuracy: Can it generate correct witness commands?
Policy creation: Valid JSON policy documents?
Rego syntax: Syntactically correct Rego policies?
Completeness: All required flags included?
Security: Does it recommend secure practices?

License

Apache 2.0 - Same as go-witness

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
data		data
docs		docs
registry		registry
scripts		scripts
.gitignore		.gitignore
100K_DIVERSITY_STRATEGY.md		100K_DIVERSITY_STRATEGY.md
ACCOMPLISHMENTS.md		ACCOMPLISHMENTS.md
DIVERSITY_PLAN.md		DIVERSITY_PLAN.md
EXECUTIVE_SUMMARY.md		EXECUTIVE_SUMMARY.md
FINAL_STATUS.md		FINAL_STATUS.md
IMPLEMENTATION_GUIDE.md		IMPLEMENTATION_GUIDE.md
Modelfile		Modelfile
OVERNIGHT_STATUS.md		OVERNIGHT_STATUS.md
QUICK_START.md		QUICK_START.md
README.md		README.md
RESULTS.md		RESULTS.md
STATUS.md		STATUS.md
SUMMARY_FOR_USER.md		SUMMARY_FOR_USER.md
TRAINING_OPTIONS.md		TRAINING_OPTIONS.md
VERIFIED_DATASET.md		VERIFIED_DATASET.md
finetune_openai.py		finetune_openai.py
monitor_training.sh		monitor_training.sh
requirements.txt		requirements.txt
test_model.sh		test_model.sh
train_mlx.py		train_mlx.py
train_witness_model.py		train_witness_model.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Witness Evals - Training Dataset for Witness Attestation Framework

Overview

Dataset Structure

Dataset Format

Current Dataset Stats

Verified Dataset (PRIMARY - Production Ready)

Synthetic Dataset

Manual Dataset (Baseline)

Coverage by Category

Quick Start

1. Generate Dataset

2. Validate Dataset

3. Fine-Tune a Model

Adding More Examples

Attestors to Add

Contributing

Model Training Guidelines

Recommended Hyperparameters

Evaluation

License

References

About

Uh oh!

Releases

Packages

Languages

testifysec/witness-evals

Folders and files

Latest commit

History

Repository files navigation

Witness Evals - Training Dataset for Witness Attestation Framework

Overview

Dataset Structure

Dataset Format

Current Dataset Stats

Verified Dataset (PRIMARY - Production Ready)

Synthetic Dataset

Manual Dataset (Baseline)

Coverage by Category

Quick Start

1. Generate Dataset

2. Validate Dataset

3. Fine-Tune a Model

Adding More Examples

Attestors to Add

Contributing

Model Training Guidelines

Recommended Hyperparameters

Evaluation

License

References

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages