Subject reviewA huge amount of traffic data is archived which can be used in data mining especially supervised learning. However, it is not being fully used due to lack of accurate accident information (labels). In this study, we improve a Mahalanobis distance based algorithm to be able to handle differential data to estimate flow fluctuations and detect accidents and use it to support correcting and complementing accident information. The outlier detection algorithm provides accurate suggestions for accident occurring time, duration and direction. We also develop a system with interactive user interface to realize this procedure. There are three contributions for data handling. Firstly, we propose to use multi-metric traffic data instead of single metric for traffic outlier detection. Secondly, we present a practical method to organise traffic data and to evaluate the organisation for Mahalanobis distance. Thirdly, we describe a general method to modify Mahalanobis distance algorithms to be updatable.
Keywords: accident data; data labelling; differential distance; Mahalanobis distance; outlier detection; traffic data; updatable algorithm
Ispravljanje i nadopunjavanje podataja o prometnim nesrećama na autocesti putem Mahalanobis udaljenosti na temelju otkrivanja netipičnih vrijednostiPregledni članak Arhivirana je ogromna količina podataka o prometu koji bi se mogli koristiti za dobivanje specifičnih podataka. Međutim, oni se u potpunosti ne koriste zbog nepostojanja točnih podataka o prometu (oznaka). U ovom radu poboljšavamo algoritam zasnovan na Mahalanobis udaljenosti za procjenu promjena toka prometa i otkrivanje nesreća i primjenjujemo ga kod ispravljanja i dopunjavanja informacija o nesreći. Algoritam za otkrivanje outliera (netipičnih vrijednosti) pruža točne podatke o vremenu događanja nesreće, trajanju i smjeru. Razvijamo i sustav s interaktivnim sučeljem korisnika u svrhu ostvarenja ovog postupka. Predlažu se tri načina za manipulaciju podacima. Najprije, za otkrivanje outliera u prometu predlažemo uporabu multi-metričkih podataka o prometu umjesto jedno metričkih. Nadalje, predlažemo praktičnu metodu za organizaciju prometnih podataka i evaluaciju organizacije Mahalanobis udaljenosti. Kao treće, dajemo opis opće metode za modifikaciju algoritama Mahalanobis udaljenosti kako bi se mogli ažurirati.