SPARTAN: Self-supervised Spatiotemporal Transformers Approach to Group Activity Recognition

Chappa, Naga V S Raviteja; Nguyen, Pha; Nelson, Alexander; Seo, Han‐Seok; Li, Xin; Dobbs, Page D.; Luu, Khoa

doi:10.1109/cvprw59228.2023.00544

Search citation statements

Order By: Relevance

Paper Sections

Select...

Related Work1

Citation Types

Supporting

Mentioning

Contrasting

Year Published

2024

2025

Publication Types

Select...

Article4

Preprint1

Book1

Relationship

Self Cite0

Independent6

Authors

Journals

Cited by 14 publications

(1 citation statement)

References 49 publications

Supporting

Mentioning

Contrasting

Order By: Relevance

“…Recent advancements in video analysis [6], [7] have predominantly employed traditional deep learning algorithms, but their efficacy is limited by the absence of language comprehension. Recognizing this gap, there is a shift towards integrating text modalities [8] to enhance understanding capabilities.…”

Section: Related Workmentioning

confidence: 99%

Advanced Deep Learning Techniques for Tobacco Usage Assessment in TikTok Videos

Chappa,

Mccormick,

Gongora

et al. 2024

Preprint

View full text Add to dashboard Cite

show abstract

Section: Related Workmentioning

confidence: 99%

Advanced Deep Learning Techniques for Tobacco Usage Assessment in TikTok Videos

Chappa,

Mccormick,

Gongora

et al. 2024

Preprint

View full text Add to dashboard Cite

show abstract

Flow-Assisted Motion Learning Network for Weakly-Supervised Group Activity Recognition

Nugroho,

Woo,

Lee

et al. 2024

Lecture Notes in Computer Science

View full text Add to dashboard Cite

React: recognize every action everywhere all at once

Chappa,

Nguyen,

Dobbs

et al. 2024

Machine Vision and Applications

View full text Add to dashboard Cite

In the realm of computer vision, Group Activity Recognition (GAR) plays a vital role, finding applications in sports video analysis, surveillance, and social scene understanding. This paper introduces Recognize Every Action Everywhere All At Once (REACT), a novel architecture designed to model complex contextual relationships within videos. REACT leverages advanced transformer-based models for encoding intricate contextual relationships, enhancing understanding of group dynamics. Integrated Vision-Language Encoding facilitates efficient capture of spatiotemporal interactions and multi-modal information, enabling comprehensive scene understanding. The model’s precise action localization refines joint understanding of text and video data, enabling precise bounding box retrieval and enhancing semantic links between textual descriptions and visual reality. Actor-Specific Fusion strikes a balance between actor-specific details and contextual information, improving model specificity and robustness in recognizing group activities. Experimental results demonstrate REACT’s superiority over state-of-the-art GAR approaches, achieving higher accuracy in recognizing and understanding group activities across diverse datasets. This work significantly advances group activity recognition, offering a robust framework for nuanced scene comprehension.

show abstract

SPARTAN: Self-supervised Spatiotemporal Transformers Approach to Group Activity Recognition

Cited by 14 publications

References 49 publications

Advanced Deep Learning Techniques for Tobacco Usage Assessment in TikTok Videos

Advanced Deep Learning Techniques for Tobacco Usage Assessment in TikTok Videos

Flow-Assisted Motion Learning Network for Weakly-Supervised Group Activity Recognition

React: recognize every action everywhere all at once

Contact Info

Product

Resources

About