www.cepadues.comIn this work, we propose a new clustering document representation for semi-structured documents collections. Our approach consists on a representation of XML documents based on their sub-paths, defined according to some criteria (length, root beginning, leaf ending) using the structure only or both the structure and the content. By considering those sub-paths as words, we can use standard methods for vocabulary reduction, and simple clustering methods such as K-means that scale up well. We actually use an implementation of the clustering algorithm known as \textit{dynamic clouds} that can work with distinct groups of independent variables. This is necessary in our model since embedded sub-paths are not independent. For valid...
http://asso-aria.org/coria/2008/197.pdfInternational audienceLa recherche d'informations dans les do...
National audienceLa norme XML permet la représentation d'un document selon un découpage logique qui ...
In computer science many data are shaped as trees. In the context of the Web, it is the case for XML...
Cette version corrige des erreurs dans le nom de 2 auteurs cites dans la bibliographie.National audi...
22 pages, in French.Currently, XML is a format widely used. In the context of computer science teach...
Les documents XML posent de nouveaux défis et imposent de nouvelles méthodes de traitement d'informa...
La numérisation des documents et le développement des technologies Internet ont engendré une augment...
The bibteX file has been replaced with the correct one.International audienceThe goal of our work is...
ISBN : 2-906855-29-4National audienceXML est un (méta-)langage actuellement très utilisé. Dans le ca...
euzenat2000aNational audienceDe nombreuses applications (représentation du contenu, définition de vo...
The work presented in this paper are in the context of information retrieval. Specifically, we propo...
La numérisation des documents et le développement des technologies Internet ont engendré une augment...
Article dans revue scientifique avec comité de lecture.Nous présentons un modèle abstrait de représe...
International audienceCet article porte sur le regroupement automatique de documents sur une base év...
Ce papier porte sur la génération de mappings pour l'alignement de taxonomies du Web. L'objectif est...
http://asso-aria.org/coria/2008/197.pdfInternational audienceLa recherche d'informations dans les do...
National audienceLa norme XML permet la représentation d'un document selon un découpage logique qui ...
In computer science many data are shaped as trees. In the context of the Web, it is the case for XML...
Cette version corrige des erreurs dans le nom de 2 auteurs cites dans la bibliographie.National audi...
22 pages, in French.Currently, XML is a format widely used. In the context of computer science teach...
Les documents XML posent de nouveaux défis et imposent de nouvelles méthodes de traitement d'informa...
La numérisation des documents et le développement des technologies Internet ont engendré une augment...
The bibteX file has been replaced with the correct one.International audienceThe goal of our work is...
ISBN : 2-906855-29-4National audienceXML est un (méta-)langage actuellement très utilisé. Dans le ca...
euzenat2000aNational audienceDe nombreuses applications (représentation du contenu, définition de vo...
The work presented in this paper are in the context of information retrieval. Specifically, we propo...
La numérisation des documents et le développement des technologies Internet ont engendré une augment...
Article dans revue scientifique avec comité de lecture.Nous présentons un modèle abstrait de représe...
International audienceCet article porte sur le regroupement automatique de documents sur une base év...
Ce papier porte sur la génération de mappings pour l'alignement de taxonomies du Web. L'objectif est...
http://asso-aria.org/coria/2008/197.pdfInternational audienceLa recherche d'informations dans les do...
National audienceLa norme XML permet la représentation d'un document selon un découpage logique qui ...
In computer science many data are shaped as trees. In the context of the Web, it is the case for XML...