Google, en collaboration avec des institutions de recherche à travers l’Afrique, a lancé WAXAL, un vaste dataset de discours en libre accès visant à améliorer les technologies d’Intelligence Artificielle (IA) pour les langues africaines.
Introduction
Ce dataset comprend des échantillons vocaux de 21 langues d’Afrique subsaharienne, notamment le Haoussa, le Yoruba, l’Igbo, le Luganda, le Swahili et l’Acholi.
Google affirme que WAXAL a pour objectif de servir plus de 100 millions de locuteurs qui ont été historiquement exclus des technologies à commande vocale en raison du manque de ressources linguistiques de haute qualité.
Un besoin urgent de données vocales de qualité
Les assistants à activation vocale, les services de transcription et autres technologies basées sur la parole sont largement répandus à l’échelle mondiale.
Pourtant, les plus de 2 000 langues parlées en Afrique ont été largement négligées dans le développement de l’IA en raison de la rareté des données vocales.
Cela crée un fossé numérique qui empêche des millions de personnes d’accéder à des solutions vocales dans des domaines cruciaux comme l’éducation, la santé et les affaires.
Un effort de trois ans financé par Google
Pour combler ce fossé, WAXAL a été créé sur une période de trois ans avec un financement de Google. Le dataset comprend 1 250 heures de discours naturel transcrit et plus de 20 heures d’enregistrements studio de qualité supérieure, permettant le développement de voix synthétiques réalistes.
L’autonomisation des communautés par la propriété des données
« La véritable importance de WAXAL réside dans l’autonomisation des communautés à travers l’Afrique », déclare Aisha Walcott-Bryantt, responsable de Google Research Africa.
« En offrant une ressource vitale aux étudiants, chercheurs et entrepreneurs pour développer des technologies dans leurs langues maternelles, ce dataset ouvre l’accès à plus de 100 millions de personnes selon leurs propres termes. »
La participation communautaire a été essentielle au projet. Des universités et organisations africaines telles que l’Université Makerere en Ouganda, l’University of Ghana et Digital Umuganda au Rwanda ont mené les efforts de collecte de données, sous la direction des chercheurs de Google.
Contrairement à de nombreux datasets internationaux, les données restent la propriété des institutions partenaires. Cet arrangement permet aux chercheurs et étudiants africains de créer leurs propres applications et outils de manière indépendante, sans dépendre de corporations externes.
Le rôle central des universités africaines
« Pour que l’intelligence artificielle serve véritablement l’Afrique, elle doit comprendre nos langues et nos contextes culturels », souligne Joyce Nakatumba-Nabende, maître de conférences à l’Université Makerere. « Le dataset WAXAL fournit à nos chercheurs les données de qualité nécessaires pour développer des technologies vocales qui représentent fidèlement nos diverses communautés. »
Conclusion
À l’University of Ghana, plus de 7 000 volontaires ont prêté leur voix à l’initiative. Le professeur Isaac Wiafe, professeur agrégé à l’université, explique que cet effort favorise l’innovation dans des secteurs comme la santé, l’éducation et l’agriculture.
Le dataset WAXAL est désormais ouvert au public, fournissant aux développeurs, chercheurs et startups les données vocales essentielles pour créer des solutions d’IA plus inclusives à travers l’Afrique.


