RESUME. Nous présentons dans cet article les principaux défis que pose le « big data » aux systèmes d'information, c'est-à-dire aux systèmes en charge du stockage et du traitement des données en vue de prises de décision. Après avoir détaillé deux applications majeures du big data que sont la recherche d'information et l'intelligence économique, nous nous intéressons à la place des données ouvertes et du web dans le big data ainsi qu'à celle que le web occupe dans les sciences et la société. Nous abordons ensuite les méthodes et technologies informatiques déployées pour traiter le big data en mettant l'accent sur la façon dont les données sont stockées, traitées et analysées afin d'en extraire des connaissances. Nous nous intéressons enfin aux défis que pose le big data aux entreprises et aux citoyens, notamment en terme de qualité des données et de préservation de la vie privée.ABSTRACT. In this paper, we present the main challenges "big data" raises to information systems, that is to systems dedicated to the storage and processing of data for decision making purposes. After presenting in detail two major applications of big data (information retrieval and business intelligence), we investigate the role of open data and the web in big bata applications, as well as the role the web plays in science and society. We discuss the methods and computer technologies deployed to address big data challenges, focusing on how the data is stored, processed and analyzed in order to extract knowledge. Finally, we consider the challenges big data raises to companies and citizens, especially in terms of data quality and privacy preserving processes.
MOTS-CLES : Systèmes d'information, Big data, recherche d'information, intelligence économique, données ouvertes, Hadoop, NoSQL, fouille de données)2 Acronyme Revue. Volume 1 -n° 1/2012 6 Acronyme Revue. Volume 1 -n° 1/2012 disponible). Les secondes étant constituées de petits et gros objets, souvent hétérogènes (Cox et Ellsworth, 1997).Comme nous le verrons dans la suite de cet article, il n'existe que peu, voire pas, d'applications mettant en jeu des données possédant toutes ces caractéristiques. Une définition plus juste pourrait alors être « des données qui sont trop volumineuses ou ayant une arrivée trop rapide ou une variété trop grande pour permettre de les ranger directement dans des bases de données ou de les traiter par les algorithmes actuels ». Ainsi, l'aspect a priori évident du volume du big data ne doit pas cacher les deux autres aspects fondamentaux que sont la variété et la vélocité des données.Comme le soulignent McAfee et Brynjolfsson (2012), pour certaines applications, la vitesse de création des données est plus problématique que leur volume. Par exemple, les données que sont les informations sur la position d'objets mobiles doivent être traitées en temps réel au risque de devenir obsolètes et inutiles. La vélocité est particulièrement importante également dans le cas des données issues des capteurs ou de vidéo-surveillance qui nécessitent un traitement rapide po...