Dify Knowledge Base Retrieval Evaluation (RAG)

This repo provides a simple toolchain to evaluate Dify Knowledge Base retrieval quality across different configurations (chunking strategy, TopK, reranking on/off).

Chinese docs:

README.zh-CN.md
docs/FAQ.zh-CN.md

Core scripts (pipeline):

build_evaluation_set.py: build candidate questions from an existing Dify dataset (Knowledge Base)
Manual review: filter candidates and save as evaluation_set.xlsx
rag_evaluator.py: run evaluation for one dataset
batch_evaluation.py: compare multiple datasets/configs in batch
visualization.py: generate charts/reports from summary JSON
run_evaluation.py: one-click batch evaluation + visualization

Quickstart

0) Install dependencies

This project is pure Python. Install the usual data stack:

python3 -m pip install -U pandas numpy openpyxl requests python-dotenv tqdm matplotlib seaborn jieba

1) Configure `.env`

Required:

DIFY_API_KEY=...

Optional:

DIFY_API_BASE=https://api.dify.ai/v1 (default)

For batch comparison (3 chunking strategies):

DATASET_ID_GENERAL=...
DATASET_ID_PARENT_CHILD=...
DATASET_ID_QA=...

For reranking (must match Dify "System Model Settings"):

RERANK_PROVIDER_NAME=local or siliconflow ...
RERANK_MODEL_NAME=bge-reranker-base or BAAI/bge-reranker-v2-m3 ...

For multi-dataset evaluation correctness:

GOLD_MATCH_MODE=doc_name (recommended when comparing different datasets)

2) Build candidates (optional)

python3 build_evaluation_set.py --action build --dataset-id <ONE_DATASET_ID> --output candidates.xlsx

Then manually review candidates.xlsx:

mark is_valid=Y for good rows
fill category / difficulty if you want grouped analysis
save as evaluation_set.xlsx

3) Run single evaluation

Recommended for comparing multiple datasets: match gold by document name.

python3 rag_evaluator.py \
  --dataset-id <DATASET_ID> \
  --eval-set evaluation_set.xlsx \
  --top-k 5 \
  --gold-match doc_name

With reranking:

python3 rag_evaluator.py \
  --dataset-id <DATASET_ID> \
  --eval-set evaluation_set.xlsx \
  --top-k 5 \
  --gold-match doc_name \
  --use-rerank \
  --rerank-provider siliconflow \
  --rerank-model BAAI/bge-reranker-v2-m3

4) Batch compare + visualization

python3 run_evaluation.py

Outputs:

results_<timestamp>/summary_*.json|.xlsx
charts: *.png

Why `gold_doc_name` matters

gold_doc_id is dataset-scoped in Dify: the same file uploaded to different Knowledge Bases usually gets different document_id. So for comparing chunk strategies (general vs parent-child vs QA), use:

gold_doc_name in the evaluation set, and
--gold-match doc_name when evaluating.

Examples

See examples/ for a tiny demo corpus and a sample evaluation_set_example.xlsx you can use for smoke-testing.

Submodule

CRUD_RAG/ is included as a git submodule pointing to https://github.com/IAAR-Shanghai/CRUD_RAG.git. It is not required for running the Dify evaluation scripts.

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
CRUD_RAG @ 1aace38		CRUD_RAG @ 1aace38
docs		docs
examples		examples
.env.example		.env.example
.gitignore		.gitignore
.gitmodules		.gitmodules
AGENTS.md		AGENTS.md
CRUD_RAG使用说明.md		CRUD_RAG使用说明.md
CRUD_RAG快速入门教程.md		CRUD_RAG快速入门教程.md
README.md		README.md
README.zh-CN.md		README.zh-CN.md
batch_evaluation.py		batch_evaluation.py
build_evaluation_set.py		build_evaluation_set.py
extract_docs.py		extract_docs.py
rag_eval_scripts.zip		rag_eval_scripts.zip
rag_evaluation_guide.pdf		rag_evaluation_guide.pdf
rag_evaluation_guide.tex		rag_evaluation_guide.tex
rag_evaluator.py		rag_evaluator.py
run_evaluation.py		run_evaluation.py
visualization.py		visualization.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Dify Knowledge Base Retrieval Evaluation (RAG)

Quickstart

0) Install dependencies

1) Configure `.env`

2) Build candidates (optional)

3) Run single evaluation

4) Batch compare + visualization

Why `gold_doc_name` matters

Examples

Submodule

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Dify Knowledge Base Retrieval Evaluation (RAG)

Quickstart

0) Install dependencies

1) Configure .env

2) Build candidates (optional)

3) Run single evaluation

4) Batch compare + visualization

Why gold_doc_name matters

Examples

Submodule

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

1) Configure `.env`

Why `gold_doc_name` matters

Packages