Digital humaniora: Statistiske metoder i humanistisk forskning

Dato: 6. november 2014, kl. 13.15 - 15.45

Adresse: Njalsgade, lokale 24.5.11

Medbring gerne din egen laptop (men det er ikke nødvendigt). Efter oplæggene vil der være mulighed for at arbejde med nogle af de kommandoer som Barbara gennemgår.

  13.15-14.00

Forholdet mellem sprog og sprogbrugere – statistiske metoder i humanistisk forskning

Nicolai Pharao, INSS

I sprogvidenskabelige undersøgelser er man ofte nødt til at måle sine data på nominelle skalaer. Det giver begrænsninger på hvilke statistiske tests man kan bruge til at undersøge om de forskelle, der er i fordelingen af responserne, er tilfældige eller ej. Et særligt brugbart værktøj i sproglige undersøgelser er logistisk regression, som giver mulighed for at undersøge den samlede indflydelse af en række faktorer på samme tid. Indtil for nylig var man dog nødt til at antage at de grupper af mennesker, man tog stikprøver fra, var tilstrækkeligt homogene, hvilket kan medføre at man finder effekter af forskellige baggrundsfaktorer, der ikke er statistisk robuste. Ved at tage højde for variationen inden for disse grupper kan man få en mere præcis angivelse af effekterne. Dette er muligt gennem brug af såkaldte mixed models. Jeg vil give eksempler fra mit eget og andres arbejde med undersøgelser af udtalevariation, som illustrerer fordelene ved at bruge mixed models. Desuden vil jeg vise hvordan man kan bruge resultaterne til at få mere detaljerede oplysninger om individers adfærd og derigennem kombinere overordnede kvantitative resultater med mere kvalitative analyser.

 

14.00-14.15

 Kaffepause

14.15 – 15.45

No black magic: text processing using the Unix command line 

Barbara Plank, CST

The command line interface —invented decades ago, long before the graphical user interface — is an amazing tool for gaining quick insights into data. By combining small, yet powerful utilities you can analyze your data quickly to extract information or create exciting visualizations. In this tutorial, we will provide a hands-on introduction to Unix command line utilities to demystify the “black window”. 

Topics:

  • command line concepts, looking at files (cat,less,head,tail), navigation, searching files (grep and regular expressions)
  • combining commands using the pipe: example of generating frequency lists quickly (less, grep, sed, sort, uniq, cut) 
  • brief outlook to more advanced topics: data visualization in R (histograms, scatterplots, bar plots)

 

 References: 

- Ken Church. Unix™ for Poets

- Nikolaj Lindberg. http://stts.se/egrep_for_linguists/egrep_for_linguists.pdf

- Jeroen Janssens. Data Science at the Command Line. O’Reilly. 2014