Jokalante SARL est une entreprise sociale qui évolue dans le domaine des systèmes d’information et de communication pour le changement de comportement suivant une approche mixte omni canal. Nous travaillons avec les médias cumulés à notre plateforme pour des campagnes d’informations en voix et en langues locales.
Projet Kallaama
Le projet KALLAAMA vise à produire 60 heures de données audios transcrites et annotées pour entraîner des systèmes de reconnaissance de parole dans 3 des principales langues nationales du Sénégal : wolof, sérère et pular, soit 180 heures de parole localisée.
Les données produites par KALLAAMA seront des énoncés naturels et spontanés, avec du vocabulaire en contexte, destinées à développer des modèles de reconnaissance de parole à grand vocabulaire, en particulier relatives au domaine agricole. La reconnaissance de parole est le principal verrou technologique à lever pour développer des services vocaux (voicebots, callbots…) au bénéfice des personnes peu ou pas lettrées.
Missions
Les missions sont les suivantes et pourront être adaptées en fonction du profil et des compétences.
- Produire un modèle de phonétisation automatique (modèle graphème-à-phonème / aussi appelé G2P en anglais) en wolof, sérère et pulaar, qui permettra transcrire automatiquement un mot en une transcription phonétique. Le modèle sera appris à partir des 3 lexiques de prononciation qui auront été créé par les linguistes de Jokalante. Ce modèle sera ensuite utilisé pour construire un dictionnaire complet, pour chacune des 3 langues précitées, qui dans lequel sera associé à chaque mot des corpus textuels précédemment récoltés une ou plusieurs prononciations.
- Constitution d’un corpus de textes en wolof, sérère et pulaar. Il s’agira de rassembler des corpus textuels libres de droit pour la production de modèles de langage. Pour cela, le candidat devra identifier des sources de contenu puis mettre en forme les textes bruts extraits afin de construire un jeu de données exploitable à des fins de traitements automatiques. Il sera possible que le candidat ait recourt à des techniques d’océrisation afin de récolter le plus de données possible. Ceci dans une finalité de développement d’une solution chatbot pour le monde rural à partir des techniques de TAL et de l’apprentissage automatique
Diplôme : Master en Humanités Numériques ou en TAL (Traitement Automatique de Langue) ou en datascience.
NB : Le recrutement se fera au fil de l’eau