Home/Datasets/English to Indian languages parallel dataset

Digital India BHASHINI Division

ORGANISATION

English to Indian languages parallel dataset

Human translated bi-directional Parallel corpus from English to six Indian languages

About Dataset

This dataset presents a high-quality human-translated parallel corpus comprising English sentences aligned with their translations into six major Indian languages. The resource has been meticulously curated to support research and development in machine translation.

The parallel corpus is domain-balanced, with content systematically selected and translated across five key domains that reflect real-world linguistic diversity and practical relevance:

1. Governance and Policy (Primary Domain): Texts from administrative communications, government schemes, policies, and citizen-centric materials.

2. Science and Technology: Passages covering emerging technologies, innovation, and scientific awareness content.

3. Education: Educational materials, curriculum-based texts, and pedagogical content.

4. Health: Public health information, medical advisories, and awareness literature.

5. Agriculture: Farmer outreach, crop management, and rural development-related texts.

All translations have been performed and validated by professional human translators, ensuring high linguistic fidelity, semantic equivalence, and domain consistency across languages. Rigorous quality checks were followed to maintain alignment accuracy and contextual relevance.

This corpus has been developed under the EILMT (English to Indian Languages Machine Translation) consortium, operating within the framework of the Mission Bhashini initiative of the Government of India. The effort aligns with the national vision of enabling language inclusivity, accessibility of digital content, and fostering multilingual AI technologies.

The dataset serves as a benchmark resource for building and evaluating translation systems, domain adaptation studies, and linguistic resource development for Indian languages—thereby contributing to the broader goals of linguistic empowerment and digital inclusivity in India.

Consortia Members

The project is being carried out in collaboration with the following institutions:

Centre for Development of Advanced Computing (C-DAC), Noida

Centre for Development of Advanced Computing (C-DAC), Pune

Indian Institute of Technology (IIT) Bombay

IIIT Hyderabad

AU-KBC, Anna University Chennai

Banasthali Vidyapith

C-DAC Bengaluru

C-DAC Trivandrum

Dharmsinh Desai University, Gujarat

IIIT Bhubaneswar, Odisha

For more information, visit project's github at: https://github.com/eilmt/NLTM-EILMT

Purpose of Dataset

To Support Research And Development In Machine Translation Technology.

Dataset Metadata

License

Attribution 4.0 International (CC BY- 4.0)

Geographical coverage

Country

Sector

Science, Technology and Research

Author

EILMT Consortium

Source Organisation

Digital India BHASHINI Division

Uploaded by

Mukund Kumar Roy

Data Quality Score (Beta)

4.5

Dataset type

Structured

Frequency

Time Granularity

Year range

N.A.

Date & Time

05/01/26 14:14:06

Visibility

Open

Hosted / Redirected

Hosted

Data Type

Primary

Data Collection Method

Data Collection Method Include Careful Selection Of Monolingual English Text From Copyright Free Content, Cleaning And Denoising, Thereafter Manual Translation Into Respective Languages.

Activity Overview

0
9
80.90 MB
188

License Control

Attribution 4.0 International (CC BY- 4.0)

English-Gujarati Data ( 1 directories )

English-Gujarati_Data

11 files

Data Quality Score Beta

Version Control

Version 1(80.90 MB)

Mukund Kumar Roy·6 month(s) ago
- English-Gujarati Data
  English-Gujarati_Data
- English-Hindi Data
- English-Kannada Data
- English-Malayalam Data
- English-Marathi Data
- English-Odia Data
- Gujarati-English Data
- Hindi-English Data
- Kannada-English Data
- Malayalam-English Data
- 2 more

Accessibility options by UX4G

English to Indian languages parallel dataset

About Dataset

Purpose of Dataset

Dataset Metadata

Activity Overview

Tags

License Control

English-Gujarati Data ( 1 directories )

English-Gujarati_Data

Data Quality Score Beta

Version Control

Version 1(80.90 MB)

English-Gujarati Data

English-Gujarati_Data

English-Hindi Data

English-Kannada Data

English-Malayalam Data

English-Marathi Data

English-Odia Data

Gujarati-English Data

Hindi-English Data

Kannada-English Data

Malayalam-English Data

AIKosh

Resources

Support