Tekster i TEI-format

Første udgave af CLARIN-DK-datacentret  blev udviklet i det danske DK-CLARIN-projekt i perioden 2008-2011 (Se: https://dkclarin.ku.dk/). I det delprojekt som arbejdede med skrevne sprogresurser, blev der indsamlet og annoteret skrevne tekster, nutidige såvel som ældre, almensproglige og specialiserede fagsproglige tekster, litterære og sagprosatekster, såvel som parallelle korpusser med dansk som et af sprogene. Desuden blev der udviklet et fælles TEI-format for alle filer. Det gamle datacenter udvides ikke længere.

Se beskrivelse af TEI-formatet her:  Asmussen: Text formatting og hent rng-skemaet her: https://clarin.dk/schemas/tei/TEIDKCLARIN.rng
Man kan søge efter de gamle TEI-filer her: https://clarin.dk/clarindk/find.jsp

Vejledning til at søge efter TEI-filer: https://info.clarin.dk/clarin-dk-infrastrukturen/vejledninger/Frems_gTeiResurser_v2.pdf/

Automatisk generering af TEI-formatet

Det var en betingelse for at kunne uploade tekstfiler i det gamle datacenter at de var formateret i det fælles TEI-format. For en almen bruger var det vanskeligt, og derfor lavede DK-CLARIN en automatisk procedure til klargøring af tekster.

Denne procedure kan stadig bruges til at skabe filer i TEI-format fra almindelige tekstfiler eller fra RTF-filer (skabt gennem Word): https://clarin.dk/clarindk/toolchains-upload.jsp

 Vejledning til generering af TEI-formatet: Vejledning i konvertering til TEI