Stratified Sampling for Extreme Multi-label Data

Merrillees, Maximillian; Du, Lan

doi:10.1007/978-3-030-75765-6_27

Search citation statements

Order By: Relevance

Paper Sections

Select...

Stratified Multilabel Cross Validation1

Citation Types

Supporting

Mentioning

Contrasting

Year Published

2021

2024

Publication Types

Select...

Article4

Book1

Other1

Relationship

Self Cite0

Independent6

Authors

Journals

Cited by 7 publications

(1 citation statement)

References 7 publications

Supporting

Mentioning

Contrasting

Order By: Relevance

“…The recently introduced stratified sampling (SS) algorithm [7] is designed to produce balanced train/test splits for extreme classification data with a high number of data points and classes. It has been shown to be faster to use than iterative stratification variants, and it often produces splits with better distributions.…”

Section: Stratified Multilabel Cross Validationmentioning

confidence: 99%

Novel split quality measures for stratified multilabel cross validation with application to large and sparse gene ontology datasets

Tiittanen

Törönen

2022

ACI

View full text Add to dashboard Cite

<abstract><p>Multilabel learning is an important topic in machine learning research. Evaluating models in multilabel settings requires specific cross validation methods designed for multilabel data. In this article, we show that the most widely used cross validation split quality measure does not behave adequately with multilabel data that has strong class imbalance. We present improved measures and an algorithm, optisplit, for optimizing cross validations splits. Extensive comparison of various types of cross validation methods shows that optisplit produces more even cross validation splits than the existing methods and it is among the fastest methods with good splitting performance.</p></abstract>

show abstract

Section: Stratified Multilabel Cross Validationmentioning

confidence: 99%