2013
DOI: 10.4135/9781452269948
|View full text |Cite
|
Sign up to set email alerts
|

Best Practices in Data Cleaning: A Complete Guide to Everything You Need to Do Before and After Collecting Your Data

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
2
1
1
1

Citation Types

1
253
0
19

Year Published

2015
2015
2023
2023

Publication Types

Select...
4
3
1

Relationship

0
8

Authors

Journals

citations
Cited by 293 publications
(273 citation statements)
references
References 0 publications
1
253
0
19
Order By: Relevance
“…Choć dane pochodzące z Internetu są relatywnie wiarygodne i pozbawione manualnych błędów (w porów-naniu np. do danych zbieranych przez ankieterów), praktyka analityczna pokazuje (Osborne 2012), że zanim zostaną przeanalizowane, dane te muszą zostać poddane procesowi czyszczenia (ang. data cleaning).…”
Section: Wyzwania W Analizie Dużych Zbiorów Danychunclassified
“…Choć dane pochodzące z Internetu są relatywnie wiarygodne i pozbawione manualnych błędów (w porów-naniu np. do danych zbieranych przez ankieterów), praktyka analityczna pokazuje (Osborne 2012), że zanim zostaną przeanalizowane, dane te muszą zostać poddane procesowi czyszczenia (ang. data cleaning).…”
Section: Wyzwania W Analizie Dużych Zbiorów Danychunclassified
“…In this work, we assume that we neither know all entities in D nor its size (i.e., open world assumption). This distinguishes our problem from the problem of missing data [37,43,44], which refers to incomplete data or missing attribute values.…”
Section: Unknown Unknownsmentioning
confidence: 99%
“…In the statistics literature, this second problem is referred to as Missing Not At Random (MNAR) [37,43], where the missingness of a data item depends on its value. There are many statistical inference techniques dealing with MNAR [1,10,9,1,52,40], but nearly all the techniques require at least partial knowledge of the record.…”
Section: A Naïve Solutionmentioning
confidence: 99%
See 1 more Smart Citation
“…According to Osborne (2012), "the better your reliability, the more accurate and replicable your results" (p. 262).…”
Section: E--------------f--------------g--------------h Slightly Truementioning
confidence: 99%