machine translation stack¶
Cette note expose notre approche pour un systeme de traduction couvrant le francais et le moore. L'objectif est de rester opensource, modulaire et realiste pour une equipe reduite.
objectifs du systeme¶
- text-to-text: traduction bidirectionnelle entre francais et moore.
- speech-to-text: transcription des audios francais et moore.
- text-to-speech: generation de parole naturelle en moore.
Les ressources etiquetees restent rares, d'ou l'obligation de miser sur le transfert d'apprentissage et la quantification.
text to text¶
modeles a privilegier¶
nllb-200pour la couverture des langues peu dotees.mbart-50comme base polyvalente facile a affiner.m2m-100pour eviter un pivot par l'anglais.marianmtlorsque l'on cherche un modele compacte.mistral 7bou autresllmlegers apres quantificationint4.
ameliorations cibles¶
- constitution d'un corpus parallele francais-moore et fine tuning specifique.
- back translation pour augmenter artificiellement la portion moore.
- couches
adapterpour personnaliser sans toucher a tous les poids. - auto etiquetage via notre pipeline
sttpour produire du parallele low-cost.
mesures de qualite¶
bleuetchrf++pour suivre les progres.- evaluation humaine par nos locuteurs natifs.
- suivi de la latence pour garantir une inference acceptable sur
a4000oua6000.
speech to text¶
options de modele¶
whisperadapte au moore apres un leger affinement.wav2vec 2.0pour profiter de l'apprentissage auto supervise.- architectures
conformerlorsque l'on veut pousser la precision.
collecte et augmentation¶
- campagnes de crowdsourcing dans les communautes partenaires.
- generation synthetique avec modification de vitesse, hauteur ou bruit.
- augmentation phonemique pour couvrir les variantes dialectales.
suivi de performance¶
wercomme indicateur principal.perpour surveiller les confusions phonemiques.rtfpour garantir une inference proche du temps reel.
text to speech¶
modeles candidats¶
tacotron 2pour la qualite vocale.fastspeech 2pour la rapidite.vitsquand on veut un pipeline de bout en bout.
leviers de progression¶
- adaptation par locuteur a partir de corpus moore collectes localement.
- modelisation de la prosodie pour un rendu expressif.
- augmentation avec perturbations audio et representations phonemiques.
metriques clefs¶
mosobtenu via ecoutes internes.mcdpour suivre la qualite spectrale.cerafin d'assurer l'intelligibilite.
integration pipeline¶
traduction ecrite¶
graph LR;
A[texte source] --> B[normalisation]
B --> C[selection du modele]
C --> D[post-traitement]
D --> E[texte traduit]
chaine voix¶
graph LR;
A[audio] --> B[pretraitement]
B --> C[modele stt]
C --> D[modele de langage]
D --> E[post-traitement]
E --> F[transcription]
defis a surveiller¶
- penurie de donnees moore etiquetees.
- variabilite dialectale entre regions.
- contraintes de deploiement sur du materiel limite.
- besoin futur de support multimodal (texte, audio, visuel).