Résumé
La représention graphique des langues africaines que ce soit dans les orthographes standards ou dans les systèmes d’annotation phonétique, nécessite généralement la représentation des tons sous forme de signes dialectiques (accent graphiques) superposés sur les segments qui tiennent lieu de centre de syllabes. Cette représentation est la chaîne structurale. Toutefois, le marquage des tons sous formes d’accents ne permet pas toujours un traitement automatique des textes ainsi représentés pour au moins trois raisons.
- Le ton et le segment qui le portent sont interprétés par l’humain comme une seule unité graphique complexe, alors que ces deux entités graphiques sont interprétées comme deux objets numériques distincts par l’ordinateur.
- La représentation tonale sur un mot peut varier d’un contexte à un autre, ce qui nécessite que le contenu lexical invariant du mot soit formellement distingué de ses différentes réalisations dans le discours.
- Les objets numériques que sont les tons (accents) peuvent faire l’objet d’un encodage à un autre (ASCII, UNICODE, etc.) ; ceci ne facilite pas toujours le partage et la réutilisation des textes en langue africaine à tons.
Cet article propose un modèle univoque de représentation de l’information textuelle où chaque unité de sens reçoit systématiquement une analyse distincte que cette unité soit segmentale ou tonale. Nous nous appuierons en cela sur le langage d’encodage XML, plus précisément en suivant les standards développés par le consortium.
Mots-clés
Rédaction, étudiants, LCC, TEI-XML AGLC, langues camerounaises
Introduction
Le Text Encoding Initiative (TEI) est une façon simple d’encoder un texte sans toutefois compromettre sa nature de départ. Pour exprimer un document ou un texte TEI sous forme numérique, on utilise un langage d’encodage formel appelé XML ou “ Extensible Markup Language” publié pour la première fois en 1998 par la World Wide Web Consortium (W3C) (cf. Google). Le XML offre une manière simple de représenter des données structurées comme un flux linéaire de caractère et de marquer des parties spécifiques de ce flux avec des balises nommées pour indiquer une fonction structurelle ou des éléments de sémantique. Cette fonctionnalité aidera les étudiants de langues et cultures camerounaises à mieux rédiger leur texte en langue dans l’optique d’une étude scientifique plus aisée. Quelle sera l’utilité ou l’apport du TEI-XML dans les pratiques rédactionnelles chez les étudiants de LCC ? Pour répondre à cette question, nous aurons à examiner en profondeur le système d’encodage TEI-XML, sa méthode, ses procédés, et nous allons l’appliquer dans les textes en langues locales africaines précisément celle du Cameroun qui sont pour la plupart des langues à tons.
Constat
Les cours de langues et cultures camerounaises dispensés dans nos universités ne sont pas assez informatisés et rendent l’apprentissage difficile avec des cours longs. De même l’annotation des tons (car toutes les langues camerounaises sont des langues à tons) n’est pas aisée quand il faut transcrire ou représenter graphiquement un texte, c’est pourquoi nous voyons souvent des mots dans des textes avec des tons notés à la main par les étudiants eux-mêmes, d’autres n’en mettent même pas et cela dénature le mot. Il serait donc judicieux de créer un système rapide d’annotation des tons dans la transcription et la représentation graphique des textes en langues pour ces étudiants de LCC.
Revue de la littérature
Des travaux ont déjà été effectués sur l’étude des TEI/XML dans l’encodage des textes. Nous pouvons citer Lou Burnard, consultant indépendant Digital Humanities co-fondateur de la TEI qui présente ce que c’est que la TEI et son apport dans son livre intitulé “Text Encoding Initiative” sous forme de Guidelines, là où il explique la technologie XML utilisée par la TEI d’une manière accessible au lecteur dépourvu de formation technique.
Aussi nous avons Sperberg Mc Queen dans son article intitulé “la TEI lite : Encoder pour échanger : une introduction à la TEI”. Dans cet exposé, il nous présente : la structure d’un texte TEI, l’encodage du corps d’un texte et bien d’autre.
Le cours de lexique grammaire vu dans le cadre de notre formation en linguistique computationnelle nous aidera dans le codage des mots.
Problèmes et questions de recherche
Le problème qui se pose est celui de savoir comment améliorer les pratiques rédactionnelles chez les étudiants de LCC ? Plusieurs autres questions peuvent surgir de cette interrogation principale qui nous guidera :
- Comment intégrer les TEI/XML dans la formation des étudiants de LCC ?
- Comment coder les textes en langage TEI ?
Cadre théorique
L’utilisation de la TEI comme alternative pour une transcription et une représentation des textes en langues locales à tons dans l’amélioration des pratiques rédactionnelles chez les étudiants de LCC ne peut se faire qu’avec la participation de ces étudiants avec leur milieu scolaire, le cadre de leurs études, les possibilités qu’ils auront à assimiler cette pratique d’encodage qui rendra les mots faciles à lire et à prononcer.
Méthodologie
Cet article est mis sur pieds pour essayer de présenter aux étudiants de LCC d’améliorer leurs pratiques rédactionnelles dans le cadre de leur production. Ainsi, pour mieux identifier leurs problèmes, nous aurons un entretien directif sur les étudiants. Nous avons choisi 3 étudiants pour un début. EKANI Sandrine (Niveau 1), BEYINA Henri (Niveau 2), KAMGA Maurice (Niveau 3).
Résultats de l’enquête par questionnaire
Réponses |
|||
Questions |
Etudiant 1 |
Etudiant 2 |
Etudiant 3 |
Avez-vous l’habitude de transcrire vos textes en langue |
Non |
Oui |
Oui |
Comment procédez-vous avec les caractères spéciaux ? |
Je ne sais pas |
On insère des signes de mathématiques |
Avec le clavier africain que j’ai installé dans ma machine. |
Avez-vous des problèmes pour noter les tons dans la transcription ? |
// |
Oui |
Parfois |
Comment procédez-vous pour les noter ? |
// |
Avec un Bic noir à la fin de ma saisie. |
Je combine deux signes pour avoir un ton. |
Combien de temps mettez-vous pour transcrire un texte ? |
// |
Toute une journée |
2 à 3h |
Discussions
Nous constatons à travers ces résultats que les étudiants mettent trop de temps pour trouver comment noter un ton (accent) sur un son, problème que l’innovation dans les NTIC va résoudre à travers ce système de transcription (TEI-XML).
Pour ce faire, nous allons proposer aux étudiants l’apprentissage à travers l’utilisation de ce système qui les aidera tout d’abord à transcrire les textes e t à représenter graphiquement les tons sans avoir besoin d’utiliser plusieurs applications à la fois. Cette application aura dont pour but de :
- Transcrire automatiquement les mots sans risque de se tromper.
- Noter les tons sur les sons à travers la représentation graphique.
- Rendre le texte plus court.
Conclusion
À la fin de notre étude, nous pouvons dire que la linguistique computationnelle comme discipline qui allie langue et informatique pourraient apporter dans ses innovations une amélioration dans les pratiques rédactionnelles chez les étudiants de LCC à travers la facilité et l’aisance à transcrire les textes en langues locales.
Bibliographie
Gardent, C., Guillaume, B., Folk I. Perier G. (2005). « Le lexique grammaire de M. Gross et le traitement automatique des langues »
Béchet F. (2013), Aix-Marseille Université – laboratoire d’informatique Fondamentale-LIF-CNRS, Nancy, « Traitement automatique de la parole ».
TEI Guidline. weblink : www.tei-c.org/release/tei-p5/en/guidelines.pdf
Bernard L. (2015), « Qu’est-ce que la Text Encoding Initiative ? »
En savoir plus sur RAIFFET
Subscribe to get the latest posts sent to your email.
Vous devez être connecté pour poster un commentaire.