Home/Datasets/Updesh

Sunayana Sitaram

Microsoft Corporatio...

ORGANISATION

Updesh

Updesh is a large-scale synthetic dataset designed to advance post-training of LLMs for 13 Indian languages

About Dataset

Updesh is a large-scale synthetic dataset designed to advance post-training of LLMs for Indic languages. It integrates translated reasoning data and synthesized open-domain generative content to support culturally-grounded multilingual adaptation of LLMs.
Despite the rapid progress in instruction-tuned LLMs, most existing datasets focus on English, creating a gap in high-quality, culturally grounded resources for Indic languages—resources that are essential for enabling Small Language Models (SLMs) to serve India’s diverse linguistic landscape. Updesh aims to fill this gap by providing rich, multilingual instruction-tuning data grounded in Indian languages and contexts.
Unlike previous English centric translated datasets, Updesh employs a dual approach of culturally-grounded data generation and careful, selective translation, ensuring linguistic nuance and relevance for each language.
By releasing Updesh as open data, researchers and communities working on Indian languages as well as other low-resource languages gain unprecedented access to high-quality, culturally-nuanced data.
Languages: Assamese, Bengali, Gujarati, Hindi, Kannada, Malayalam, Marathi, Nepali, Odia, Punjabi, Tamil, Telugu, Urdu
Data Composition: Reasoning Data: ~6.8M translated tuples, Generative Data: ~2.1M synthesized tuples

Dataset Metadata

License

Microsoft-research-license

Geographical coverage

India

Sector

Sector Agnostic

Author

Varun Gumma, Sanchit Ahuja, Pranjal A. Chitale, Deepthi Sudharsan, Prashant Kodali, Kalika Bali, Sunayana Sitaram

Source Organisation

Microsoft Corporation (India) Pvt. Ltd.

Uploaded by

Sunayana Sitaram

Data Quality Score (Beta)

2.75

Dataset type

Unstructured

Frequency

Time Granularity

Year range

N.A.

Date & Time

25/06/25 16:19:26

Visibility

Open

Hosted / Redirected

Hosted

Activity Overview

0
46
16.21 GB
932

License Control

Microsoft-research-license

Updesh_beta ( 3 files, 17 directories )

analytical_reasoning

13 files

brain_teaser

13 files

causal_reasoning

14 files

creative_writing

14 files

cultural_multihop_reasoning

14 files

dialog_gen

15 files

fermi

13 files

fs_cot_flow

13 files

.gitattributes

2.40 KB

LICENSE.md

10.47 KB

This preview shows 10 out of 20 items. Load more

Data Quality Score Beta

Version Control

Version 1(16.21 GB)

admin·1 year(s) ago
- Updesh_beta
  analytical_reasoning
  brain_teaser
  causal_reasoning
  creative_writing
  cultural_multihop_reasoning
  dialog_gen
  fermi
  fs_cot_flow
  .gitattributes
  LICENSE.md
  10 more

Accessibility options by UX4G

Updesh

About Dataset

Dataset Metadata

Activity Overview

Tags

License Control