Home/Datasets/OVA Odia Prose Literature Dataset

ORGANISATION

OVA Odia Prose Literature Dataset

The OVA Odia Prose Literature Dataset is a curated collection of sentence-level text extracted from 1,143 Odia books digitized by the Odia Virtual Academy (OVA). It spans multiple domains including prose, culture, autobiographies, biography, travel writing, plays, criticism, short story collections, essays, religion and philosophy, scientific writing, and history. The dataset is developed to support language modelling, NLP research and generative AI training.

About Dataset

The OVA Odia Prose Literature Dataset is a curated compilation of sentence-level text drawn from 1,143 Odia books digitized by the Odia Virtual Academy (OVA). It has been developed to serve as a structured, machine-learning-ready resource for natural language processing, linguistic research, and generative AI development in Odia. The dataset covers a broad range of domains, including prose, culture, autobiographies, biography, travel writing, plays, criticism, short story collections, essays, religion and philosophy, scientific writing, and history, providing a wide representation of Odia’s literary and intellectual traditions. The dataset brings together works spanning different periods and writing styles, offering a diverse view of Odia language usage. By extracting content at the sentence level, the dataset aligns with the requirements of modern NLP models that benefit from clean and consistent input units. This structure enables direct use in tasks such as language modeling, translation, summarization, and text generation, as well as analytical tasks that require segmented and standardized text. The variety of source domains contributes to the richness of linguistic patterns within the dataset. It reflects narrative writing, analytical exposition, reflective prose, conversational text, descriptive passages, historical narration, and technical explanation. This mixture helps models and researchers access a more complete picture of Odia as it appears across literature, scholarship, personal writing, and documentation. The presence of texts from different genres allows the dataset to capture differences in vocabulary, tone, sentence construction, and stylistic form, which is important for building AI systems designed to handle real-world usage rather than narrow subsets of the language.

Purpose of Dataset

The Purpose Of This Dataset Is To Provide Sentence-level Odia Text, Extracted From Digitized Books And Segmented Using Odia Danda And Question-mark Delimiters, To Support Ai Training. By Transforming Each Book Into A Clean Csv File With Individual Sentences As Rows, The Dataset Enables Language Modeling, Text Processing, And Other Nlp Tasks That Require Structured, High-quality Odia Textual Data.

Dataset Metadata

License

Attribution 4.0 International (CC BY- 4.0)

Geographical coverage

Odisha, India

Sector

Sector Agnostic

Author

Smruti Ranjan Mishra

Source Organisation

Odia Virtual Academy, Electronics & Information Technology Department, Odisha

Uploaded by

Smruti Ranjan Mishra

Data Quality Score (Beta)

4.8

Dataset type

Unstructured

Frequency

Static

Time Granularity

Year range

01/12/1930 - 04/12/2025

Date & Time

04/12/25 10:19:10

Visibility

Open

Hosted / Redirected

Redirected

Data Type

Secondary

If Redirection which source

Https://ova.gov.in/

Activity Overview

0
3
107.84 MB
122

License Control

Attribution 4.0 International (CC BY- 4.0)

OVA_prose_dataset ( 3 directories )

test

1 directories

train

1 directories

validation

1 directories

Data Quality Score Beta

Version Control

Version 1(107.84 MB)

admin·7 month(s) ago
- OVA_prose_dataset
  test
  train
  validation

Related Datasets

Updated 5 month(s) ago

OVA Odia Literature Dataset v1

This dataset is a curated monolingual corpus of Odia literary texts prepared from books digitized by the Odia Virtual Academy (OVA). The dataset contains sentence-level extractions from multiple books processed into clean, machine learning ready text files.

Odia

Literature Domain

low-resource-languages

0
8
3.04 MB
130

ODIA VIRTUAL ACADEMY, ELECTRONICS & INFORMATION TECHNOLOGY DEPARTMENT, ODISHA

View Details

Accessibility options by UX4G

OVA Odia Prose Literature Dataset

About Dataset

Purpose of Dataset

Dataset Metadata

Activity Overview

Tags

License Control

OVA_prose_dataset ( 3 directories )

test

train

validation

Data Quality Score Beta

Version Control

Version 1(107.84 MB)

OVA_prose_dataset

test

train

validation

Related Datasets

AIKosh

Resources

Support