De l’espace au temps
Cadres de référence et interférences culturelles

Benjamin FAGARD – Lattice
2012-2017

			Site du projet

Sommaire

1 2 3 4

Récolte des données

Nous avons récolté des données conséquentes, à l’aide de deux outils, l’un présentant une série de vidéos, l’autre une série d’images. Ces deux outils ont été créés pour éliciter des descriptions spatiales. Nous avons ainsi constitué un corpus oral d’environ 500 000 mots. Nous avons des données suffisantes pour une analyse statistique dans une quinzaine de langues, et fait des tests plus réduits sur une dizaine d’autres langues. Cela inclut des langues romanes (près de 150 participants) : français, piémontais, portugais, roumain, italien, espagnol, catalan, galicien et occitan, des langues germaniques (une centaine de participants) : néerlandais, allemand, suédois et anglais, des langues slaves (une soixantaine de participants) : polonais, slovaque, serbe et russe, mais aussi des langues non-indo-européennes (plus d’une centaine de participants) : thaï, bedja, finnois et hongrois.

Nous avons mis en forme la quasi-totalité de ces données, afin de les rendre accessibles à la communauté au moyen d’une base de données en ligne, multimodale (avec au minimum transcriptions, traduction et codage ; et pour certaines langues également audio et vidéo). Elle permettra de comparer la manière dont les langues retenues pour le projet permettent à leurs locuteurs d’exprimer certaines catégories spatiales. L’idée est de proposer à la communauté scientifique, et éventuellement non-scientifique, un corpus « parallèle » par excellence, semblable au corpus CHILDES, mais avec une couche d’annotation sémantique et morpho-syntaxique.

1 2 3 4