NLP Tools

I CLARIN-DK findes en række sprogteknologiske værktøjer som kan bruges online, dvs. direkte fra brugergrænsefladen (uden først at skulle downloade dem). Værktøjerne arbejder på danske og engelske tekster og accepterer TXT-format, RTF-format (fra Word) og PDF-format.

Du kan lave:

  • Sætningssegmentering og tokenisering af din tekst (adskillelse af tekstens ord, tal og tegn)
  • Identifikation af ordklasse for alle ord i din tekst (POS-tagging)
  • Lemmatisering af din tekst (alle tekstens ord sættes i grundform)
  • Opstilling af frekvensliste over ordene i din tekst så du kan få overblik over hyppigt anvendte ord
  • Identifikation og klassifikation af tekstens navne (navnegenkendelse)

For at bruge værktøjerne online, kan du benytte følgende fremgangsmåde:

  • Upload den fil du vil arbejde med
  • Vælg filtype (TXT, RTF, PDF)
  • Afkryds det værktøj du vil bruge
  • Tryk ’Submit’
  • Du kan nu downloade en zip-fil med resultatet (filen med det længste navn), output fra mellemstadierne og din inputfil.

Brug NLP Tools: https://cst.dk/toolchains/.