Zusammenfassung Die Nachfrage nach Data Scientists in den verschiedensten Bereichen der Industrie, Gesellschaft und Forschung stellt Universitäten vor die Frage, in welcher Form eine Data-Science-Ausbildung ermöglicht werden soll. Neben dem traditionellen Ansatz, Data Science als Studienfach anzubieten, gibt es auch Forderungen nach Einbettung von Data-Science-Veranstaltungen in informatik-und mathematikfremden Fächern, um die gesteigerte Nachfrage nach Datenkompetenzen in diesen Bereichen abzudecken. Dies wird auch durch die erst kürzlich von der GI geförderten Initiative für "Data Literacy" unterstützt. Vor diesem Hintergrund haben wir an der TU Berlin einen Data-Science-Kurs auf Bachelorniveau nach dem Vorbild des Data8-Kurses an der Berkeley-Universität in Kalifornien konzipiert und erfolgreich durchgeführt. In dem Kurs "Data Science 1: Essentials of Data Programming" werden Grundlagen der Programmierung, statistische Datenanalyse, maschinelles Lernen und ethische Fragen bei der Anwendung dieser Methoden vermittelt. Das Angebot stieß auf ein sehr starkes Interesse seitens der Studierenden verschiedenster Studiengänge der TU Berlin einschließlich Kunstgeschichte und Philosophie. Zur erfolgreichen Durchführung des Kurses gehörte nicht nur die entsprechend entworfene integrierte Synopsis, die orientiert an Fallbeispielen mathematische Konzepte und Programmiertechniken vermittelt, sondern auch regelmäßige Übungsstunden und Hausaufgaben sowie eine zentralverwaltete JupyterHub-Infrastruktur, die sowohl die Nicht-Informatikstudierenden vor jeglicher Installation von unbekannter Software behütete als auch die Automatisierung der Korrektur der Programmierhausaufgaben ermöglichte. In diesem Beitrag möchten wir über unsere Erkenntnisse berichten, wie es uns gelungen ist, Studierende mit sehr unterschiedlichen Informatikkenntnissen für Data Science zu begeistern. Dabei gehen wir auf die praktische Durchführung des Kurses und der abschließenden Leistungsüberprüfung ein. Zuletzt zeigen wir die Vorteile eines solchen Kurses auf. Dazu zählt die skalierbare Möglichkeit, weiten Teilen der Studierenden Datenkompetenzen zu vermitteln und den Quereinstieg in die Informatik zu verschaffen. Von Data Literacy zu Data Science Auf Berufsportalen wie LinkedIn sind inzwischen mehr Stellen für Data Scientists als für klassische Informatiker ausgeschrieben, noch dazu bleiben diese Stellen eine Woche länger auf dem Markt als der Durchschnitt 1. Trotz der derzeitigen Popularität ist der Begriff "Data Science" nicht präzise definiert. Je nach wissenschaftlicher Perspektive werden unterschiedliche Schwerpunkte im Hinblick auf die
A core operation in data discovery is to find joinable tables for a given table. Real-world tables include both unary and n-ary join keys. However, existing table discovery systems are optimized for unary joins and are ineffective and slow in the existence of n-ary keys. In this paper, we introduce Mate, a table discovery system that leverages a novel hash-based index that enables n-ary join discovery through a space-efficient super key. We design a filtering layer that uses a novel hash, Xash. This hash function encodes the syntactic features of all column values and aggregates them into a super key, which allows the system to efficiently prune tables with non-joinable rows. Our join discovery system is able to prune up to 1000 x more false positives and leads to over 60 x faster table discovery in comparison to state-of-the-art.
No abstract
No abstract
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.