2011
DOI: 10.1126/science.1199644
|View full text |Cite
|
Sign up to set email alerts
|

Quantitative Analysis of Culture Using Millions of Digitized Books

Abstract: We constructed a corpus of digitized texts containing about 4% of all books ever printed. Analysis of this corpus enables us to investigate cultural trends quantitatively. We survey the vast terrain of ‘culturomics’, focusing on linguistic and cultural phenomena that were reflected in the English language between 1800 and 2000. We show how this approach can provide insights about fields as diverse as lexicography, the evolution of grammar, collective memory, the adoption of technology, the pursuit of fame, cen… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1
1

Citation Types

16
1,696
0
55

Year Published

2013
2013
2024
2024

Publication Types

Select...
6
2
1
1

Relationship

0
10

Authors

Journals

citations
Cited by 2,272 publications
(1,815 citation statements)
references
References 17 publications
16
1,696
0
55
Order By: Relevance
“…Mais tarde, apareceu o primeiro corpus electrónico, o corpus Brown, a partir do qual se extraíram as normas de frequência mais utilizadas em língua inglesa: as normas de Kučera e Francis (1967). Contudo, apesar da sua popularidade, a validade destas normas tem sido questionada (ex., Balota, Cortese, Sergent-Marshall, Spieler, & Yap, 2004;Brysbaert & Cortese, 2011;Brysbaert & New, 2009 (Lund & Burgess, 1996); e, mais recentemente, o Google Ngram Viewer (Michel et al, 2011) Cattell (1886), se tem demonstrado de forma sistemática que as palavras mais frequentes são reconhecidas (ex., Forster & Chambers, 1973;Murray & Forster, 2004), nomeadas (ex., Balota & Chumbley, 1985;Dahan, Magnuson, & Tanenhaus, 2001) e/ou classifi cadas (ex., Forster & Hector, 2002;Forster & Shen, 1996) de forma mais rápida e precisa do que palavras de baixa frequência. Além disso, estudos recentes (ex., Brysbaert & Cortese, 2011;Brysbaert & New, 2009;Thompson & Desroches, 2009;Zevin & Seidenberg, 2002), têm também comprovado que a frequência de uso das palavras é a variável mais potente na explicação do desempenho linguístico dos sujeitos, capturando mais de 40% da variância dos resultados.…”
unclassified
“…Mais tarde, apareceu o primeiro corpus electrónico, o corpus Brown, a partir do qual se extraíram as normas de frequência mais utilizadas em língua inglesa: as normas de Kučera e Francis (1967). Contudo, apesar da sua popularidade, a validade destas normas tem sido questionada (ex., Balota, Cortese, Sergent-Marshall, Spieler, & Yap, 2004;Brysbaert & Cortese, 2011;Brysbaert & New, 2009 (Lund & Burgess, 1996); e, mais recentemente, o Google Ngram Viewer (Michel et al, 2011) Cattell (1886), se tem demonstrado de forma sistemática que as palavras mais frequentes são reconhecidas (ex., Forster & Chambers, 1973;Murray & Forster, 2004), nomeadas (ex., Balota & Chumbley, 1985;Dahan, Magnuson, & Tanenhaus, 2001) e/ou classifi cadas (ex., Forster & Hector, 2002;Forster & Shen, 1996) de forma mais rápida e precisa do que palavras de baixa frequência. Além disso, estudos recentes (ex., Brysbaert & Cortese, 2011;Brysbaert & New, 2009;Thompson & Desroches, 2009;Zevin & Seidenberg, 2002), têm também comprovado que a frequência de uso das palavras é a variável mais potente na explicação do desempenho linguístico dos sujeitos, capturando mais de 40% da variância dos resultados.…”
unclassified
“…In some fields legal issues around access have been side-stepped by constructing a "shadow" dataset that summarises key features of the data while still restricting access to the data itself. For example, by extracting phrases comprising a set of n words (n-grams) from Google Books it is possible to create a data set that contains valuable information without exposing the full text [23]. However for taxonomic work, there does not seem to be an obvious way to extract a shadow.…”
Section: Digitising the Taxonomic Literaturementioning
confidence: 99%
“…The intention is build upon some the tentative assertions we offered in an earlier editorial commentary (By, Burnes and Oswick, 2011). To this end, we have explored meta-level trends using the "Google Ngram Viewer" 1 (Michel et al, 2011). The Ngram Viewer is an application which enables phrase-usage to be charted according to the yearly count of words or phrases appearing within a large corpus of texts.…”
Section: Trends In Organizational Changementioning
confidence: 99%