Avec la démocratisation des savoirs, dont l'évolution s'accentue grâce à l'utilisation de la Toile, un nombre croissant de documents spécialisés peut être trouvé en ligne. Cette situation est typique de différents domaines de spécialité (biomédical, juridique, énergétique, télécommunication ...). Si de très nombreux documents peuvent ainsi être trouvés, leur contenu n'est pas pour autant accessible à tous les utilisateurs. En effet, les documents vulgarisés et spécialisés co-existent. Or, ces derniers peuvent contenir des informations très techniques et difficiles à comprendre par les non experts. Dès alors, l'indication sur leur degré de spécialisation est une information importante, car elle permet justement de guider les utilisateurs vers des contenus qui leur sont plus appropriés. Dans ce travail, nous montrons qu'il est possible d'exploiter les informations morphologiques des documents de santé afin d'effectuer une distinction automatique efficace (avec des performances souvent supérieures à 90 %) de leur degré de spécialisation. Nous effectuons une analyse quantitative et qualitative du matériel morphologique. Nous effectuons également une comparaison entre l'exploitation du matériel morphologiques et le matériel lexical. Pour ce faire, nous exploitons plusieurs outils du Traitement Automatique des Langues qui nous permettent ainsi d'accéder au niveau morphologique des mots des documents et de nous concentrer de cette manière sur leur structure morphologique et sémantique.
Contexte et positionnement des objectifs scientifiquesLa démocratisation des savoirs, devenue possible surtout grâce à l'évolution de la Toile, ouvre des possibilités importantes dans la diffusion de ces savoirs et surtout dans leur accès instantané et très souvent libre. Toutefois, si tout utilisateur de la Toile peut accéder physiquement aux documents mis en ligne, leur contenu risque de rester sémantiquement opaque si le niveau d'explicitation n'est pas suffisant ou bien s'il n'est pas adapté à la compétence de l'utilisateur. Notre travail est ciblé sur les documents biomédicaux, car environ 80 % des internautes s'intéressent aux questions liées à la santé (Fox, 2006 ;Fox, 2011). Comme ce chiffre souligne aussi la préoccupation que manifestent les citoyens vis-à-vis de leur santé, il devient intéressant d'analyser (1) si la technicité des documents du domaine biomédical est élevée, (2) si cette technicité est actuellement différenciée en ligne, mais aussi (3) si la distinction de la technicité est observable directement dans les documents. C'est ce que nous analysons dans la suite de cette section.
Les documents en ligne ont-ils une technicité importante ?Depuis plusieurs années déjà, il a été constaté que la technicité élevée des documents de santé peut avoir des effets néfastes sur leurs utilisateurs (AMA, 1999). Les conséquences sont d'autant plus graves que les documents sont consultés par les patients. Par exemple, plusieurs études montrent que le degré de technicité élevé conduit en effet à un impact négatif sur la compréhension...