Digital India BHASHI...

ORGANISATION

IndicXlit

A Transformer-based multilingual transliteration model

0
47
3.94 MB
1,111

Model Card

Run Model

About Model

Bhashini - IndicXlit is a Transformer-based multilingual transliteration model, trained on Aksharantar dataset which is the largest publicly available parallel transliteration corpora collection for Indic languages at the time of writing (20 May 2022). It is used to convert any roman text written in Indian language (like Hinglish) to the native Indic-script (like Devanagari for Hindi). It supports 21 Indic languages: Assamese, Bangla, Bodo, Gujarati, Hindi, Kannada, Kashmiri, Konkani, Maithili, Malayalam, Manipuri, Marathi, Nepali, Oriya, Panjabi, Sanskrit, Sindhi, Sinhala, Tamil, Telugu, Urdu.

IndicXlit

Metadata

License

MIT

Hosted By

AI4Bharat

Task Type

Machine Translation Model

Model Format

Other

Visibility

Open

Source Organisation

Digital India BHASHINI Division

Sector

Sector Agnostic

Updated Date & Time

06/07/26 16:14:08

Created By

Shailendra Pal Singh

Size

3.94 MB

IndicXlit-master ( 3 files, 12 directories )

ablation_study

2 directories

app

10 files, 1 directories

Checker

3 files

corpus_preprocessing

5 directories

data_mining

1 files, 2 directories

Dataset_Format

2 files

inference

2 directories

model_training_scripts

1 files, 7 directories

.gitignore

1.79 KB

LICENSE

1.04 KB

This preview shows 10 out of 15 items. Load more

License Control

MIT

Version Control

Version 1(3.94 MB)

admin·1 year(s) ago
- IndicXlit-master
  ablation_study
  app
  Checker
  corpus_preprocessing
  data_mining
  Dataset_Format
  inference
  model_training_scripts
  .gitignore
  LICENSE
  5 more

More Models from Digital India BHASHINI Division

IndicXlit

A Transformer-based multilingual transliteration model

transliteration

Language Modeling

Multilingual Translation

Machine Translation

Regional Languages

Indian Languages

NLP

0
47
3.94 MB
1,112

Updated 1 day(s) ago

DIGITAL INDIA BHASHINI DIVISION

View Details

Indic Trans2

AI4Bharat's Indic-Trans-v2 is a multilingual Transformer (~1.1BM) NMT model trained on Samanantar v2 dataset which is the largest publicly available parallel corpora collection for languages of India at the time of writing (23 March 2023). We currently release two models - Indic to English and English to Indic and support all the 22 scheduled languages of India.

Bilingual Translation

Machine Translation

Language Modeling

Multilingual Translation

Machine Translation

Regional Languages

Indian Languages

Indic-TransV2

NLP

Computational Linguistics

0
84
214.60 KB
2,154

Updated 1 day(s) ago

DIGITAL INDIA BHASHINI DIVISION

View Details

Bhashini - Fastspeech2 Model using (HS)

Text-to-speech models trained using FastPitch and HiFi-GAN vocoder, separately for each language. Supports both 'female' and 'male' voices.

Language Detection

Text to Speech

Transformer

Text Processing

NLP

Multilingual

0
93
286.72 MB
1,758

Updated 1 day(s) ago

DIGITAL INDIA BHASHINI DIVISION

View Details

Bhashini - IndicNER

IndicNER is a multilingual Named Entity Recognition model fine-tuned on 11 Indian languages to identify named entities in text

NLP

Multilingual

Foreigners

Transformer

Token Classification

Pytorch

Samanantar

Bert

NER

2
134
591.28 MB
2,651

Updated 1 day(s) ago

DIGITAL INDIA BHASHINI DIVISION

View Details

Bhashini-AI4Bharat Textual Language Detection v1.0

Detect language from provided text, Currently supports 23 languages (English, Bangla, Manipuri, Bodo, Konkani, Oriya, Nepali, Marathi, Sindhi, Sanskrit, Malayalam, Urdu, Assamese, Telugu, Dogri, Gujarati, Kashmiri, Punjabi, Santali, Maithili, Hindi, Tamil, Kannada)

Multilingual

Text Language Detection

Transformer

Deep Learning

Text Processing

Bhashini

NLP

AI4Bharat

4
266
3 MB
5,017

Updated 1 day(s) ago

DIGITAL INDIA BHASHINI DIVISION

View Details

SPRING-INX-DATA2VEC-AQC-SANSKRIT

Automatic Speech Recognition (ASR) model for speech recognition, processing audio and transcribing spoken content into text. The inference code, installation requirements, and usage instructions are available in the SPRING Lab, IIT Madras GitHub repository: https://github.com/Speech-Lab-IITM/Fairseq-Inference

low-resource-language

Sanskrit

ssl

IITM

spring_lab

Data2vec_aqc

SSL_finetunning

0
5
3.52 GB
193

Updated 6 day(s) ago

DIGITAL INDIA BHASHINI DIVISION

View Details

SPRING-INX-DATA2VEC-AQC-PUNJABI

ssl

IITM

spring_lab

PUNJABI

Data2vec_aqc

SSL_finetunning

low-resource-language

0
3
3.52 GB
186

Updated 6 day(s) ago

DIGITAL INDIA BHASHINI DIVISION

View Details

SPRING-INX-DATA2VEC-AQC-ODIA

low-resource-language

Odia

ssl

IITM

spring_lab

Data2vec_aqc

SSL_finetunning

0
4
3.52 GB
156

Updated 6 day(s) ago

DIGITAL INDIA BHASHINI DIVISION

View Details

SPRING-INX-DATA2VEC-AQC-MALAYALAM

low-resource-language

malayalam

IITM

spring_lab

ssl

Data2vec_aqc

SSL_finetunning

0
5
3.52 GB
202

Updated 6 day(s) ago

DIGITAL INDIA BHASHINI DIVISION

View Details

SPRING-INX-DATA2VEC-AQC-MARATHI

SSL_finetunning

spring_lab

IITM

ssl

Marathi

low-resource-language

Data2vec_aqc

0
6
3.52 GB
148

Updated 6 day(s) ago

DIGITAL INDIA BHASHINI DIVISION

View Details

Accessibility options by UX4G

IndicXlit

About Model

IndicXlit

Metadata

Tags