A intenção de pesquisa teve como fim estudar o fenômeno dos dados gerados por meio do processo científico e o desenvolvimento de serviços que enfrentam os crescentes desafios de sua gestão e curadoria. O problema de pesquisa se encontra nos ambientes e nas práticas responsáveis pela organização desses ativos digitais resultantes da investigação científica contemporânea. Foram objetos de estudo dessa investigação: os dados; os conjuntos de dados; os Princípios FAIR; e os repositórios digitais institucionais de dados científicos. O objetivo da pesquisa foi investigar a gestão e curadoria dos conjuntos de dados científicos disponibilizados nos repositórios digitais institucionais sulamericanos à luz dos Princípios FAIR. A proposta de investigação consistiu em uma pesquisa aplicada, de método qualitativo, exploratória, analítica, bibliográfica e documental. Fez-se levantamento dos repositórios de dados científicos no Registro de Repositórios de Dados de Pesquisa, o RE3DATA. A coleta dos dados foi feita nos repositórios selecionados. Utilizou-se da análise de conteúdo à concepção dos resultados de pesquisa. Os achados indicam que os programas responsáveis pelos repositórios investigados que servem à gestão e curadoria de dados científicos são o Morpho, o DSpace, e o Dataverse. Os repositórios em maior conformidade com os Princípios FAIR foram aqueles estabelecidos mediante o uso do Dataverse. Concluiu-se que profissionais da informação devem buscar sua capacitação em dados, a começar pelo planejamento de projetos e políticas institucionais dirigidas à implementação de repositórios de dados científicos, passando pelo entendimento das divergentes necessidades entre comunidades, pelo conhecimento técnico computacional exigido a tais práticas, e idealmente, pela busca da padronização e manutenção desses serviços.
Objetivo: identificar os repositórios de dados científicos criados e geridos por Instituições de Ensino Superior e/ou agências de pesquisa e fomento sul-americanas; identificar e descrever os formatos e extensões dos arquivos que compõem os conjuntos de dados científicos depositados nesses repositórios.
Método: oito repositórios recuperados pelo RE3DATA foram selecionados à investigação. Obteve-se uma população (N) de 1.115 conjuntos de dados científicos. A partir da Amostragem Aleatória Estratificada, chegou-se ao valor da amostra (n) igual a 258 conjuntos de dados, que corresponde a 23,15% da população (N). Os dados retirados das amostras foram condensados em tabelas e quadros.
Resultado: notou-se que a natureza dos conjuntos de dados científicos investigados se concentra em dados textuais e numéricos, salvos em arquivos de texto e em tabelas, respectivamente. Percebeu-se que os conjuntos de dados podem ser tanto homogêneos (um ou mais arquivos salvos em um único formato e extensão, ex.: formato de imagem em .jpg) ou heterogêneos (arquivos salvos em diferentes formatos e extensões, ex.: mesmo formato de imagem salvo em .jpg e .tiff) em sua composição. Apurou-se também que algumas extensões possibilitam a identificação da natureza, do domínio e do conteúdo dos dados, como observado nas extensões .gpx e .gdb, que se referem a dados de geolocalização, logo, de natureza alfanumérica.
Conclusões: há crescente necessidade de se descrever a natureza dos dados, assim como os formatos e extensões de seus arquivos. Esse tipo de metadado descritivo seria valioso a potenciais usuários, pois permitiria obter maior compreensão do contexto dos dados com foco em seu reúso.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.