Anbefalede standarder og formater

Resursetype

Format

Beskrivelse

Tekst TEI

CLARIN-DK anbefaler at man anvender TEI-formatet til metadataopmærkning og annotation af tekstkorpora.

I DK-CLARIN (2008-2011) udarbejdede man et fælles TEI-format for alle tekstfiler. Se: https://info.clarin.dk/clarin-dk-infrastrukturen/vejledninger/text-header.pdf og https://info.clarin.dk/clarin-dk-infrastrukturen/vejledninger/text-format.pdf 

Dette format kan genereres automatisk vha. en CLARIN-service:

https://clarin.dk/clarindk/toolchains-upload.jsp

Se vejledning:

https://info.clarin.dk/clarin-dk-infrastrukturen/vejledninger/Konvertering-TEI.pdf

Og se beskrivelse af DK-CLARINs tekster I TEI-format:

https://info.clarin.dk/clarin-dk-infrastrukturen/tekster-i-tei-format/

De fleste af disse korpora findes nu også som pakkede zip-filer i datacentret: https://repository.clarin.dk/repository/xmlui/
Leksika LMF

Et meget udbredt og anbefalet format for ordbøger og online leksikalske ressourcer er Lexical Markup Framework (LMF). LMF er ISO-standarden (ISO-24613:2008) for natursprogsprocessering af maskinlæsbare ordbøger og leksikalske ressourcer.

LMF kombinerer designs og metoder fra mange eksisterende NLP-leksikoner. Den overordnede ramme er baseret på de generelle træk ved eksisterende leksikoner hvor man har satset på at udvikle en konsistent terminologi til at beskrive komponenterne i leksikonerne. Derudfra har man så designet en model der bedst kunne repræsentere alle træk i disse leksikoner.

Hjemmesiden http://www.lexicalmarkupframework.org/ giver eksempler på ordbogsformater for flere sprog. Selve standarden kan købes på Dansk Standards webshop: https://webshop.ds.dk/da-dk/standarder/standard/ds-iso-246132008.

I CLARIN-DK bruger Den SprogTeknologiske Ordbase for dansk (STO) LMF som eksportformat:

https://repository.clarin.dk/repository/xmlui/handle/20.500.12115/22 and https://repository.clarin.dk/repository/xmlui/handle/20.500.12115/23

Selve ordbasen er en database, der konverteres til LMF ved eksporten.
Wordnet

Det danske wordnet, DanNet, https://repository.clarin.dk/repository/xmlui/handle/20.500.12115/25, følger den generelle standard for Wordnets. Det betyder at det bruger top-ontologien fra det europæiske wordnet, EuroWordNet, og strukturen fra Princeton Wordnet, hvor et eller flere synonymer grupperes med et fælles overbegreb og andre potentielle relationer.

Læs mere om organisering i Lingvistiske specifikationer for DanNet Version 2: https://cst.ku.dk/projekter/dannet/dannetspecifikationer_v2.pdf.

Som eksportformat kan man vælge et Rdf/owl-format eller et csv-format. Owl-formatet følger W3C-udvidelsen for repræsentation af wordnets: http://www.w3.org/TR/wordnet-rdf/.
Multimodal annotation MUMIN annotations- skemaer MUMIN specifikationer for at opmærke kommunikative gestusser i ANVIL og ELAN-formater: https://repository.clarin.dk/repository/xmlui/handle/20.500.12115/43

Desuden understøtter CLARIN-DK alle standarder og formater der anbefales af CLARIN.