Chat with us, powered by LiveChat

Processus de développement de moteurs de traduction automatique personnalisés

Pour lancer un nouveau moteur de traduction automatique neuronale personnalisé (MTANP), Trusted Translations doit réaliser une période initiale de formation et de configuration. Ce qui suit est le processus typique de la construction d’un nouveau moteur de TA neuronale.

Sélection d’un moteur de référence

Une série importante de contenus est en cours d’élaboration sur la démocratisation des algorithmes. Cependant, ce concept devrait être davantage exploité. Par exemple, la démocratisation des solutions technologiques commence à voir dans les moteurs de référence solides un bon fondement pour la construction de solutions personnalisées. Les offres de services de Google, Microsoft ou Amazon contribueront à transmettre vos propres données nettes à des moteurs qui sont déjà bien formés.

Sélection des données et préparation du corpus

Il existe plusieurs approches à la collecte de données d’entraînement pour la construction d’un moteur personnalisé.

  • Contenus traduits existants :

    Le point de départ idéal pour tout moteur de traduction automatique neuronale personnalisé est de trouver et d’utiliser des documents déjà traduits comprenant un contenu très similaire à celui que l’on souhaite traduire. Plus il y a de documents déjà traduits disponibles, plus le processus sera économique et rapide. Si la source et la cible ne sont pas associées comme unités de mémoire de traduction, un alignement peut être effectué pour obtenir le contenu bilingue nécessaire pour améliorer les performances du moteur

  • Données monolingues existantes :

    S’il existe des quantités suffisantes de contenus de référence cibles, il est possible de tirer parti de l’ensemble du style et de la terminologie en les ajoutant au mélange. Ces contenus ont probablement été élaborés par des PME locales qui les ont entièrement traduits, et leur valeur est inestimable. Il va sans dire que la terminologie spécifique à un domaine ou à un client est un atout de poids lors de la personnalisation de moteurs basés sur la technologie de la TA neuronale, dont la principale faiblesse a justement été identifiée comme étant la terminologie.

  • Création d’un corpus spécialisé à partir d’autres sources :

    Outre le recours à des données monolingues, nous recherchons d’abord sur Internet des documents qui sont alignés aussi précisément que possible sur les contenus qui passeront par le moteur. Ici encore, investir du temps dans la recherche des corpus de la meilleure qualité possible est toujours récompensé. Le même principe s’applique aux données bilingues qui peuvent être obtenues sur des marchés de données (data marketplaces). Ces données parallèles externes devront être nettoyées (vérification de l’orthographe et des alignements, suppression des doublons, etc.) avant de pouvoir être utilisées comme données d’apprentissage pour un système de TA. Dans ce scénario, un travail manuel beaucoup plus important est nécessaire par comparaison à la situation dans laquelle le client est en mesure de fournir des quantités suffisantes de données alignées de bonne qualité dès le départ. La construction du nouveau moteur prendra de 4 à 6 semaines.

Au fur et à mesure de leur réalisation, ces post-éditions pourront être converties en des données de réentraînement d’excellente qualité. Ce modèle adaptatif améliorera relativement rapidement la qualité des traductions du système au fil du temps.

Réentraînement : Les nouveaux moteurs de traduction automatique neuronale personnalisés s’améliorent avec la post-édition humaine

Il existe plusieurs flux de travail impliquant des moteurs de traduction automatique neuronale personnalisés. Une configuration courante consiste à intégrer un processus de post-édition humaine. Dans ce flux de travail, le produit du moteur de traduction automatique neuronale personnalisé est édité par l’un de nos linguistes experts afin d’améliorer la qualité du résultat obtenu jusqu’alors, ainsi que de réentraîner le moteur pour les prochaines traductions. Lorsque l’éditeur modifie la production afin d’en améliorer la qualité, le moteur devient plus intelligent grâce à un modèle adaptatif dynamique. En outre, au fur et à mesure que des traductions passent à travers le moteur, celui-ci devient de plus en plus intelligent. En d’autres termes, l’écart de qualité entre une traduction totalement humaine et cette solution se rétrécit sensiblement, le temps et les coûts de traitement étant par ailleurs considérablement réduits. Ces moteurs, selon nous, deviendront un avantage et un différenciateur sur le marché pour tout client ayant de tels besoins.