ReadMe++: Benchmarking Multilingual Language Models for Multi-Domain Readability Assessment

Naous, Tarek
Ryan, Michael J.
Lavrouk, Anton
Chandra, Mohit
Xu, Wei

Publication date

November 2023

Language

English

Abstract

We present a systematic study and comprehensive evaluation of large language models for automatic multilingual readability assessment. In particular, we construct ReadMe++, a multilingual multi-domain dataset with human annotations of 9757 sentences in Arabic, English, French, Hindi, and Russian collected from 112 different data sources. ReadMe++ offers more domain and language diversity than existing readability datasets, making it ideal for benchmarking multilingual and non-English language models (including mBERT, XLM-R, mT5, Llama-2, GPT-4, etc.) in the supervised, unsupervised, and few-shot prompting settings. Our experiments reveal that models fine-tuned on ReadMe++ outperform those trained on single-domain datasets, showcasing superi...

Extracted data

We use cookies to provide a better user experience.

Data Protection

ReadMe++: Benchmarking Multilingual Language Models for Multi-Domain Readability Assessment

Abstract

Extracted data

ReadMe++: Benchmarking Multilingual Language Models for Multi-Domain Readability Assessment

Abstract

Extracted data

Related items

Related items