Materials and Methods “Quantitative analysis of culture using millions of digitized books”, Michel et al. Contents |, Overview of GOOgIE BOOKS DIGILIZALION sscsssecssvevses sxesanerenxenons sxmsanerenwenens swsanerenwenees cxesarerenveders oesarers O 1.1. Metadata o.oo... eee cecccceccece cece ceccecaeeeeeeeeecceaeeeeeeesesccacaeeeeeeeseseccaeaeeeeeeesetissieteseeetsetseneeees V2. DiQitiZetion oo... cece ccc cc cece ce ceeeceeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeseseseseseseseseseseseseseseseseseseseseseee A 1.3. Structure Extraction ...........cccecccceccececeeeeecceeeeeeeeeeeseccaeaeeeeeeesesecseeaeeeeeeesessssieteserersesssssees A Il. Construction of Historical N-graMs Corpora ........ccccccccccccccceeeeeceeececeseceseeesesesesesesesesusesesususesesnenene D I1.1. Additional filtering Of DOOKS ....... cc cccccccccccccccececeeeeeeeeeeeeeeeeeeeeseeeseseseseseseseseseseseseserenene D Il.1A. Accuracy of Date-of-Publication Metadata ......... cc cccccccccecceeceeseeeeesesesesesesesesenerene D WTB. OCR Quality .... ccc cc ccccccccccceceeececeeeeeeeeeeeeeeeeeeseseeeseseseseseseseseseseseseseseseseseseseseseseeees O I1.1C. Accuracy of language Metadata... ccccccccccccceeseseeeeeseeesesesesesesesesesetesesesereeeee O ILID; Y6ar REStCUOM vices: eamemenenmenms cameeenienns ommetmeueniOnNs cette emits eames 11.2. Metadata based subdivision of the Google Books Collection...........cccccccceceseeeee D I1.2ZA. Determination of IANQUAGE ..... ccc ccccccccccceceeececeeeeeeeeeeeeseseseseseseseseseseseseseseseresesesese D 11.2B. Determination of book subject ASSIQGNMeNts. .......... cc ccccccccccesesesesesesesesetessseseseseee D 11.2C. Determination of book Country-Of-DUbIiCAation. ...... cc cccccccccecceeseseeeseseseseseseseseseseee D 11.3. Construction of historical N-GraMS COPPOLA ..... cc ccccccccccceeeeeeeeseeeseseseseseseseteseseseneneee II.3A. Creation of a digital sequence of 1-grams and extraction of n-gram counts.............8 I1.3B. Generation of historical N-QraMS COPPOLA