Le projet

Sègbé Corpus, l'association

Une association loi 1901 qui documente les langues côtières d'Afrique de l'Ouest à partir de la voix de leurs locuteurs. À terme, 17 langues parlées dans 9 pays, plus leurs diasporas.

Objectifs

Préserver

Constituer une archive audio durable, utile aux familles, aux apprenants et à la recherche linguistique.

Transmettre

Permettre à un enfant de la diaspora d'apprendre la langue de ses grands-parents à partir de vraies voix, pas de manuels.

Outiller

Mettre à disposition des chercheurs et des ingénieurs en NLP africain des données propres et consenties.

Méthodologie

Le corpus est constitué d'enregistrements audio de locuteurs natifs, recueillis via l'application Sègbé. Quelques principes de travail :

  • Des prompts pensés avec les locuteurs. Les contributeurs lisent ou improvisent à partir de scénarios choisis avec les communautés : salutations, vie quotidienne, récits, registres formels.
  • Plusieurs registres acceptés. Classique, urbain, diaspora : chaque variété a sa place. Nous ne cherchons pas à imposer un standard unique.
  • Un consentement par enregistrement. Le contributeur choisit, à chaque enregistrement, jusqu'où sa voix peut circuler : corpus interne uniquement, recherche académique, ou ouverture publique (open data).

Cartographie linguistique

17 langues, 9 pays : Bénin, Togo, Ghana, Nigéria, Sénégal, Gambie, Guinée-Bissau, Côte d'Ivoire et Mali. À cela s'ajoutent les communautés diasporiques en France, Belgique, au Royaume-Uni, aux États-Unis et au Canada.

17

langues à terme

9

pays couverts

5

familles linguistiques

100 M+

locuteurs potentiels

Un déploiement progressif

Cinq phases pour construire le corpus. On démarre avec les langues que nous parlons dans la diaspora, puis on étend pays par pays.

  1. An 1–2

    Golfe du Bénin

    Fon, Mina, Éwé, Adja et Yoruba : le premier socle du corpus, à partir de la diaspora francophone.

  2. An 1

    Patrimoine en danger

    Mahi et Mandjak, deux langues encore peu documentées que nous traitons en priorité.

  3. An 2–3

    Sénégambie

    Wolof et Mandinka : élargissement aux grandes langues de l'Afrique atlantique.

  4. An 3–4

    Côte d'Ivoire

    Attié, Baoulé, Dioula et Bété, pour couvrir d'autres familles linguistiques (Kwa, Akan, Mandé, Kru).

  5. An 4+

    Expansions

    Nouvelles langues, nouveaux registres, partenariats académiques plus larges.

Gouvernance

L'association Sègbé Corpus est portée par un bureau de trois membres issus de la diaspora francophone. Nous ne publions pas de photos, par choix : ce qui compte ici, c'est l'ancrage linguistique, pas le visage.

  • Mènoudé

    Président

    Ancrage Mahi/Fon (Bénin) et Adja (Tohoun, Togo)

  • Céline

    Trésorière

    Ancrage Mandjak (Guinée-Bissau / Sénégal)

  • Ijacques

    Secrétaire

    Ancrage Attié (Côte d'Ivoire)

Comment c'est organisé. Le corpus appartient à l'association Sègbé Corpus (loi 1901, siège à Saint-Cyr-l'École). L'application Sègbé est éditée par AMOK TECH SASU, qui exploite le corpus sous licence de l'association. Cette séparation existe pour que la partie scientifique et patrimoniale reste à but non lucratif, indépendamment de l'application.

Partenariats

Partenariats académiques visés

  • INALCO — Institut national des langues et civilisations orientales, Paris
  • Université d'Abomey-Calavi (UAC), Bénin
  • Université Cheikh Anta Diop (UCAD), Dakar
  • Masakhane — réseau de chercheurs en NLP africain

Financements visés

  • OIF — Organisation internationale de la Francophonie
  • AFD — Agence française de développement
  • UNESCO — programme Langues en danger
  • ELDP — Endangered Languages Documentation Programme
  • Fondation de France
  • Région Île-de-France, Ville de Paris

Aucun engagement à ce stade : partenaires et financeurs en cours de prospection.

Calendrier 2026–2030

  1. Juin 2026

    Déclaration en préfecture des Yvelines de l'association Sègbé Corpus.

  2. Juin 2026

    Publication de l'application Sègbé sur l'App Store et Google Play.

  3. 2026–2027

    Constitution du corpus phase 1 (Fon, Mina, Éwé, Adja, Yoruba) et phase 1bis (Mahi, Mandjak).

  4. 2027–2028

    Phase 2 (Wolof, Mandinka). Premiers partenariats académiques actés.

  5. 2028–2029

    Phase 3 (Attié, Baoulé, Dioula, Bété). Activation modèle freemium via Gbé SAS.

  6. 2029–2030

    Phase 4 : élargissement à de nouvelles langues et premières publications scientifiques co-signées avec les partenaires.

Travaillons ensemble

Que vous soyez chercheur·euse, fondation, institution culturelle ou simplement locuteur·rice d'une de ces langues, écrivez-nous. On prend le temps de répondre.

Nous contacter