Le traitement automatique des langues fait de plus en plus appel à de volumineux corpus textuels pour l'acquisition des connaissances. L'obstacle actuel n'est plus la disponibilité de corpus, ni même leur taille, mais l'hétérogénéité des données qui sont rassemblées sous ce nom. Dans cet article, nous examinons l'hétérogénéité que manifestent les articles du Monde quand on les regroupe selon les rubriques de la rédaction du journal. Les conséquences d'une telle hétérogénéité pour l'étiquetage et le parsage sont soulignées. Partant de ce constat, nous définissons la notion de "profilage de corpus" par le biais d'outils permettant d'évaluer l'homogénéité d'un corpus (sur-emploi du vocabulaire, de catégories morpho-syntaxiques, ou de patrons) ...
L’apprentissage de l’écriture et de la production d’écrit est devenu un enjeu majeur pour l’école da...
International audienceCet article s'inscrit dans le domaine des grands corpus de langue en interacti...
L'objectif de cet article est l'identification de méthodes de structuration des données pouvant s'ap...
Le traitement automatique des langues fait de plus en plus appel à de volumineux corpus textuels pou...
Le recours croissant aux très grands corpus pour améliorer les systèmes<br />de Traitement Automatiq...
L’exploitation des corpus à des fins didactiques demeurent un vaste terrain d’étude. Ce numéro offre...
Article à paraîtreNational audienceNous nous proposons dans cet article d'aborder d'un point de vue ...
Cet article décrit le processus d’encodage du corpus Babeliris, réunissant des textes médico-adminis...
Cet article présente DériF ("Dérivation en Français") un système d'analyse morphosémantique automati...
L'objet du présent article est de faire un point d'étape sur unprojet de recherche, Néoveille, comme...
International audienceParmi les applications didactiques de la linguistique de corpus, l’intérêt pou...
International audienceCet article a pour double objectif de présenter d'abord une approche didactiqu...
La constitution de grands corpus de textes d'élèves réunissant la totalité de leurs travaux sur une ...
L’objectif de cette journée est de parvenir à mesurer si l’hétérogénéité est un obstacle à la consti...
Ce travail de thèse adresse le problème de la désambiguïsation lexicale automatique à l'aide de méth...
L’apprentissage de l’écriture et de la production d’écrit est devenu un enjeu majeur pour l’école da...
International audienceCet article s'inscrit dans le domaine des grands corpus de langue en interacti...
L'objectif de cet article est l'identification de méthodes de structuration des données pouvant s'ap...
Le traitement automatique des langues fait de plus en plus appel à de volumineux corpus textuels pou...
Le recours croissant aux très grands corpus pour améliorer les systèmes<br />de Traitement Automatiq...
L’exploitation des corpus à des fins didactiques demeurent un vaste terrain d’étude. Ce numéro offre...
Article à paraîtreNational audienceNous nous proposons dans cet article d'aborder d'un point de vue ...
Cet article décrit le processus d’encodage du corpus Babeliris, réunissant des textes médico-adminis...
Cet article présente DériF ("Dérivation en Français") un système d'analyse morphosémantique automati...
L'objet du présent article est de faire un point d'étape sur unprojet de recherche, Néoveille, comme...
International audienceParmi les applications didactiques de la linguistique de corpus, l’intérêt pou...
International audienceCet article a pour double objectif de présenter d'abord une approche didactiqu...
La constitution de grands corpus de textes d'élèves réunissant la totalité de leurs travaux sur une ...
L’objectif de cette journée est de parvenir à mesurer si l’hétérogénéité est un obstacle à la consti...
Ce travail de thèse adresse le problème de la désambiguïsation lexicale automatique à l'aide de méth...
L’apprentissage de l’écriture et de la production d’écrit est devenu un enjeu majeur pour l’école da...
International audienceCet article s'inscrit dans le domaine des grands corpus de langue en interacti...
L'objectif de cet article est l'identification de méthodes de structuration des données pouvant s'ap...