Appréhender dynamiquement les textes (2/3)
Étiquettes : comportements, lisibilité, principes formels
Les nouvelles technologies ont beaucoup évolué et offrent désormais des possibilités d’affichage de documents très évoluées intégrant : le flou, la transparence, la spatialisation, le rendu à plusieurs niveaux de détail ou encore l’orientation tridimensionnelle. Ces nouvelles technologies autorisent des accès et des parcours nouveaux par rapport aux documents textuels.Le laboratoire LIMSI-CNRS (Laboratoire d’Informatique pour la Mécanique et les Sciences de l’Ingénieur) s’est penché sur l’analyse cognitive des nouvelles lectures possibles pour les documents électroniques, mettant plus particulièrement en évidence le dynamisme et les différents niveaux de détail. Nous nous proposons de rendre compte de l’étude et de ses résultats en trois parties :
- Nouvelles lectures
- Titre et hiérarchie
- Lien entre interface et compréhension
Titres et hiérarchie
Les considérations sur les nouvelles formes et possibilités de lecture conduisent forcément à accorder une place privilégiée au titre. En réalité, le titre a un rôle triple :
- il délimite les zones de texte ;
- il fournit des informations sur la nature ou le contenu des segments ;
- il permet d’établir des liens entres ces segments.
Les travaux de dynamisation textuelle ont ainsi trois grands buts concernant les titres :
- définir une grammaire des titres : structure et régularités observées, analyse de ses fonctions d’annonce par rapport au contenu ;
- envisager les titres comme des contenus autonomes : analyse des liens entre les différents titres d’un document ;
- étudier les liens entre titre et texte : vers l’avant ou vers l’arrière.
Dans ce contexte, un des principaux enjeux est de réaliser des programmes permettant de collecter automatiquement les titres, et donc de les reconnaître et de les identifier. Il existe en cela deux approches.
Dans la première approche, le but est de partir de patrons de reconnaissance. Les algorithmes s’appuient alors sur ces données pour retrouver dans d’autres documents des occurrences de forme proche.
Cette approche nécessite donc de faire appel à l’expertise linguistique, et donc de :
- caractériser formellement des titres (« grammaire des titres ») ;
- caractériser fonctionnelle des titres dans les documents longs ;
- étudier des liens entre titres, en tenant compte de leur niveau dans la hiérarchie du document ;
- étudier des liens entre titres et textes : reprises d’éléments et/ou annonces, pour déterminer entre autres les pertinences respectives.
Dans la deuxième approche, on cherche à attribuer automatiquement des titres à des passages textuels. Il s’agit d’une méthode en deux phases : le système découvre d’abord différents concepts (ensembles de mots représentatifs) présents dans un texte, et ensuite, segmente le texte en paragraphes en utilisant une technique de partitionnement basée sur la vraisemblance.
La suite très prochainement : Lien entre interface et compréhension…
Commentaires
Personnellement, je trouve les pop-ups (de ce site) assez énervants. Surtout, il faut chercher comment les fermer. C’est trop intrusif.
@ Stef : les pop-ups sont, en effet, très intrusifs. Songeons à ces pavés publicitaires sur les sites de presse, où il faut parfois plusieurs longues secondes avant de trouver le moyen de s’en débarrasser. En revanche, je ne vois pas de quel site vous parlez en particulier ? Celui de l’IMSI ? Je n’y ai pas rencontré de pop-up à ce jour…