Youku Dense Caption Dataset 🎥

📊 Dataset Overview

A comprehensive collection of Chinese video captions from Youku (优酷), featuring:

📹 Videos: 31,466 complete short videos
✍️ Captions: 311,921 Chinese captions
🈺 Language: Chinese
📱 Source: Youku Platform (优酷)

🚀 Usage

The dataset is available for download from ModelScope.

1. Dataset Download ⬇️

# Install Git LFS
git lfs install

# Clone the dataset
git lfs clone https://oauth2:your_git_token@www.modelscope.cn/datasets/os_ai/Youku_Dense_Caption.git

🔑 Get Token: Visit https://modelscope.cn/my/myaccesstoken

2. Dataset Structure 📁

📦 ROOT
├── 📁 benchmark_files/
│   ├── 📊 generation.json     # Test set for caption generation
│   └── 📊 grounding.json      # Test set for video moment retrieval
│
├── 📁 meta_files/
│   ├── 📋 Agriculture.csv     # Video file paths and Complete captions in the agriculture category
│   ├── 📋 Children.csv
|   └── 📋 [Other Categories].csv
│
└── 📁 data_files/
    ├── 📁 Agriculture/         # Agriculture videos
    │   ├── 📦 train/           # Training set (zipped)
    │   ├── 📦 val/             # Validation set (zipped)
    │   └── 📁 test/            # Test set (preview ready)
    │
    ├── 📁 Children/            # Children videos
    │   ├── 📦 train/
    │   ├── 📦 val/
    │   └── 📁 test/
    │
    └── 📁 [Other Categories]/  # Other categories
        ├── 📦 train/
        ├── 📦 val/
        └── 📁 test/

3. Usage Guide 📖

After Download:
- Navigate to target category folder
- Example: cd data_files/Agriculture
Data Preparation:
- Unzip files in train/ and val/ directories
- Files in test/ directory are ready to use

⚠️ Important Notes:

train and val data are stored in compressed format, requiring extraction

test data is directly accessible for preview and testing

💡 For questions, please refer to project documentation or submit an Issue

📚 Citation

If you use this dataset in your research, please cite:

@inproceedings{xiong2025youku,
    title={Youku Dense Caption: A Large-scale Chinese Video Dense Caption Dataset and Benchmarks},
    author={Zixuan Xiong, Guangwei Xu, Wenkai Zhang, Yuan Miao, Xuan Wu, LinHai, Ruijie Guo, Hai-Tao Zheng},
    booktitle={The Thirteenth International Conference on Learning Representations},
    year={2025},
    url={https://openreview.net/forum?id=vvi5OjPhbu}
}

📄 License

This dataset is released under the CC BY-NC-SA 4.0 license.

⭐ Star us on GitHub if you find this dataset useful! ⭐

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
README.md		README.md
overview.png		overview.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Youku Dense Caption Dataset 🎥

📊 Dataset Overview

🚀 Usage

1. Dataset Download ⬇️

2. Dataset Structure 📁

3. Usage Guide 📖

📚 Citation

📄 License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

Youku Dense Caption Dataset 🎥

📊 Dataset Overview

🚀 Usage

1. Dataset Download ⬇️

2. Dataset Structure 📁

3. Usage Guide 📖

📚 Citation

📄 License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages