NLP Tools
I CLARIN-DK findes en række sprogteknologiske værktøjer som kan bruges online, dvs. direkte fra brugergrænsefladen (uden først at skulle downloade dem). Værktøjerne arbejder på danske og engelske tekster og accepterer TXT-format, RTF-format (fra Word) og PDF-format.
Du kan lave:
- Sætningssegmentering og tokenisering af din tekst (adskillelse af tekstens ord, tal og tegn)
- Identifikation af ordklasse for alle ord i din tekst (POS-tagging)
- Lemmatisering af din tekst (alle tekstens ord sættes i grundform)
- Opstilling af frekvensliste over ordene i din tekst så du kan få overblik over hyppigt anvendte ord
- Identifikation og klassifikation af tekstens navne (navnegenkendelse)
For at bruge værktøjerne online, kan du benytte følgende fremgangsmåde:
- Upload den fil du vil arbejde med
- Vælg filtype (TXT, RTF, PDF)
- Afkryds det værktøj du vil bruge
- Tryk ’Submit’
- Du kan nu downloade en zip-fil med resultatet (filen med det længste navn), output fra mellemstadierne og din inputfil.
Brug NLP Tools: https://cst.dk/toolchains/.