Processus de développement de la traduction automatique personnalisée

Pour lancer un nouveau moteur de traduction automatique personnalisé, Trusted Translations doit réaliser une période initiale de formation et de configuration.

Ce qui suit est un processus de mise en œuvre typique pour construire un nouveau moteur de TA.

Personnalisation de nouveaux moteurs de TA pour chaque paire de langues

Les données d’apprentissage nécessaires à la construction d’un moteur de qualité dépendent largement des spécificités du type de domaine lié au contenu. Des échantillons du contenu existant sont donc extrêmement utiles pour élaborer les données d’apprentissage pertinentes et, par conséquent, un moteur de haute qualité pour chaque paire de langues. Il existe diverses options disponibles pour recueillir des données d’apprentissage afin de construire un moteur personnalisé.

  • Documents traduits existants:

    Le point de départ idéal pour tout moteur de traduction automatique personnalisé est de trouver et d’utiliser des documents déjà traduits impliquant du contenu très similaire à ce que l’on souhaite traduire. Plus il y a de documents déjà traduits disponibles, moins le processus sera coûteux et plus il sera rapide.

  • Données monolingues existantes:

    Si des quantités suffisantes de contenu source existent, il est possible d’extraire des phrases monolingues propres qui peuvent alors être traduites par nos experts. En créant un ensemble de données parallèles pour chaque paire de langues, nous pouvons créer le contenu approprié à partir duquel construire et former un moteur personnalisé.

  • Création d’un corpus spécialisé provenant d’autres sources:

    En plus d’utiliser des données monolingues, nous rechercherons sur Internet des documents qui sont aussi étroitement alignés au contenu et qui seront aussi traités par le moteur. Nos moteurs étant de nature statistique, nous devrons rechercher des données à la fois parallèles et monolingues. Au départ, nous construirons des systèmes en utilisant les données fournies par le client en parallèle avec les données complémentaires extraites d’Internet dans le but de démontrer l’efficacité de cette approche.

    Les données parallèles trouvées sur le Web devront être nettoyées (orthographe et alignements vérifiés, doublons supprimés, etc.) avant de pouvoir être utilisées comme données d’apprentissage pour un système de TA. Dans ce scénario, un travail manuel beaucoup plus important est nécessaire par rapport à la situation où le client est en mesure de fournir des quantités suffisantes de données de bonne qualité alignées dès le départ. La construction du nouveau moteur prendra 4 à 6 semaines.

Lorsque les traductions automatiques post-éditées sont nombreuses, le résultat peut être converti en données d’apprentissage de bonne qualité. De cette manière, la qualité du système s’améliore assez rapidement au fil du temps.

Les nouveaux moteurs de TA personnalisés s’améliorent grâce à la post-édition humaine

Il existe différents flux de travail comportant un moteur de traduction automatique personnalisé. Une configuration courante consiste à intégrer un processus de post-édition humaine. Dans ce flux de travail, la production du moteur de traduction automatique personnalisé est éditée par l’un de nos linguistes spécialisés afin d’améliorer la qualité de la production en cours, ainsi que ré-entraîner le moteur pour les prochaines traductions. Lorsque l’éditeur modifie la production afin d’en améliorer la qualité, le moteur devient plus intelligent. Au fur et à mesure que les traductions passent à travers le moteur, celui-ci devient de plus en plus intelligent. Avec le temps, l’écart de qualité entre une traduction entièrement humaine et cette solution se réduit considérablement. De plus, le délai d’exécution et les coûts se réduisent nettement. Nous sommes convaincus que ces moteurs deviendront un atout et un facteur de différenciation sur le marché pour tout client ayant un tel besoin.