As necessidades de conhecimento da biodiversidade são constantes, enquanto recursos para pesquisa, sejam financeiros, de tempo e humanos são escassos. Por outro lado, a Internet oferece um enorme volume de dados que podem ser explorados em favor da ciência da conservação. As caravelas-portuguesas (Physalia physalis) oferecem risco à população, e dados sobre sua ocorrência nem sempre estão disponíveis para estudo da espécie. Neste trabalho é proposto o treinamento de modelos de aprendizagem de máquina como ferramenta para classificar dados extraídos de uma mídia social e assim possibilitar a geração de uma base de dados sobre ocorrências de caravelas-portuguesas no litoral brasileiro.