Le projet
Sègbé Corpus, l'association
Une association loi 1901 qui documente les langues côtières d'Afrique de l'Ouest à partir de la voix de leurs locuteurs. À terme, 17 langues parlées dans 9 pays, plus leurs diasporas.
Objectifs
Préserver
Constituer une archive audio durable, utile aux familles, aux apprenants et à la recherche linguistique.
Transmettre
Permettre à un enfant de la diaspora d'apprendre la langue de ses grands-parents à partir de vraies voix, pas de manuels.
Outiller
Mettre à disposition des chercheurs et des ingénieurs en NLP africain des données propres et consenties.
Méthodologie
Le corpus est constitué d'enregistrements audio de locuteurs natifs, recueillis via l'application Sègbé. Quelques principes de travail :
- Des prompts pensés avec les locuteurs. Les contributeurs lisent ou improvisent à partir de scénarios choisis avec les communautés : salutations, vie quotidienne, récits, registres formels.
- Plusieurs registres acceptés. Classique, urbain, diaspora : chaque variété a sa place. Nous ne cherchons pas à imposer un standard unique.
- Un consentement par enregistrement. Le contributeur choisit, à chaque enregistrement, jusqu'où sa voix peut circuler : corpus interne uniquement, recherche académique, ou ouverture publique (open data).
Cartographie linguistique
17 langues, 9 pays : Bénin, Togo, Ghana, Nigéria, Sénégal, Gambie, Guinée-Bissau, Côte d'Ivoire et Mali. À cela s'ajoutent les communautés diasporiques en France, Belgique, au Royaume-Uni, aux États-Unis et au Canada.
17
langues à terme
9
pays couverts
5
familles linguistiques
100 M+
locuteurs potentiels
Un déploiement progressif
Cinq phases pour construire le corpus. On démarre avec les langues que nous parlons dans la diaspora, puis on étend pays par pays.
An 1–2
Golfe du Bénin
Fon, Mina, Éwé, Adja et Yoruba : le premier socle du corpus, à partir de la diaspora francophone.
An 1
Patrimoine en danger
Mahi et Mandjak, deux langues encore peu documentées que nous traitons en priorité.
An 2–3
Sénégambie
Wolof et Mandinka : élargissement aux grandes langues de l'Afrique atlantique.
An 3–4
Côte d'Ivoire
Attié, Baoulé, Dioula et Bété, pour couvrir d'autres familles linguistiques (Kwa, Akan, Mandé, Kru).
An 4+
Expansions
Nouvelles langues, nouveaux registres, partenariats académiques plus larges.
Gouvernance
L'association Sègbé Corpus est portée par un bureau de trois membres issus de la diaspora francophone. Nous ne publions pas de photos, par choix : ce qui compte ici, c'est l'ancrage linguistique, pas le visage.
Mènoudé
Président
Ancrage Mahi/Fon (Bénin) et Adja (Tohoun, Togo)
Céline
Trésorière
Ancrage Mandjak (Guinée-Bissau / Sénégal)
Ijacques
Secrétaire
Ancrage Attié (Côte d'Ivoire)
Comment c'est organisé. Le corpus appartient à l'association Sègbé Corpus (loi 1901, siège à Saint-Cyr-l'École). L'application Sègbé est éditée par AMOK TECH SASU, qui exploite le corpus sous licence de l'association. Cette séparation existe pour que la partie scientifique et patrimoniale reste à but non lucratif, indépendamment de l'application.
Partenariats
Partenariats académiques visés
- INALCO — Institut national des langues et civilisations orientales, Paris
- Université d'Abomey-Calavi (UAC), Bénin
- Université Cheikh Anta Diop (UCAD), Dakar
- Masakhane — réseau de chercheurs en NLP africain
Financements visés
- OIF — Organisation internationale de la Francophonie
- AFD — Agence française de développement
- UNESCO — programme Langues en danger
- ELDP — Endangered Languages Documentation Programme
- Fondation de France
- Région Île-de-France, Ville de Paris
Aucun engagement à ce stade : partenaires et financeurs en cours de prospection.
Calendrier 2026–2030
- Juin 2026
Déclaration en préfecture des Yvelines de l'association Sègbé Corpus.
- Juin 2026
Publication de l'application Sègbé sur l'App Store et Google Play.
- 2026–2027
Constitution du corpus phase 1 (Fon, Mina, Éwé, Adja, Yoruba) et phase 1bis (Mahi, Mandjak).
- 2027–2028
Phase 2 (Wolof, Mandinka). Premiers partenariats académiques actés.
- 2028–2029
Phase 3 (Attié, Baoulé, Dioula, Bété). Activation modèle freemium via Gbé SAS.
- 2029–2030
Phase 4 : élargissement à de nouvelles langues et premières publications scientifiques co-signées avec les partenaires.
Travaillons ensemble
Que vous soyez chercheur·euse, fondation, institution culturelle ou simplement locuteur·rice d'une de ces langues, écrivez-nous. On prend le temps de répondre.