Home/Datasets/Mustard Dataset (Table Structure Recognition)

ALVIYA AJOY RAJ

ORGANISATION

Mustard Dataset (Table Structure Recognition)

Mustard Dataset (Table Structure Recognition)

MUSTARD (Multilingual Scanned and Scene Table Structure Recognition Dataset)

About Dataset

MUSTARD (Multilingual Scanned and Scene Table Structure Recognition Dataset) is a diverse dataset curated for table structure recognition across multiple languages. The dataset consists of tables extracted from magazines, including printed, scanned, and scene-text tables, labeled with Optimized Table Structure Language (OTSL) sequences. It is designed to facilitate research in multilingual table structure recognition, particularly for non-English documents.

Dataset Metadata

License

CC0 1.0 Public Domain

Geographical coverage

India Specific

Sector

Sector Agnostic

Author

VishalBadri IIT Bombay

Source Organisation

Uploaded by

ALVIYA AJOY RAJ

Data Quality Score (Beta)

2.75

Dataset type

Structured

Frequency

NA

Time Granularity

NA

Year range

N.A.

Date & Time

20/05/25 10:34:38

Visibility

Open

Hosted / Redirected

Hosted

Activity Overview

0
9
530.67 MB
142

Tags

AI4Bharat
Sanskrit
Digital India
multilingual NLP
IndiaAI
IITB
indicnlp
Indian Language
linguistic diversity
IITBombay
AIkosha
DataforAI
IITBImpact
BharatGen

License Control

CC0 1.0 Public Domain

MUSTARD_Dataset ( 1 files, 2 directories )

indic

3 files, 12 directories

scenetext

1 files, 4 directories

merged.txt

109.14 KB

Data Quality Score Beta

Version Control

Version 1(530.67 MB)

admin·1 year(s) ago
- MUSTARD_Dataset
  indic
  scenetext
  merged.txt

© 2026 - Copyright AIKosh. All rights reserved.