Anbefalede standarder og formater
Resursetype |
Format |
Beskrivelse |
---|---|---|
Tekst | TEI |
CLARIN-DK anbefaler at man anvender TEI-formatet til metadataopmærkning og annotation af tekstkorpora. I DK-CLARIN (2008-2011) udarbejdede man et fælles TEI-format for alle tekstfiler. Se: https://info.clarin.dk/clarin-dk-infrastrukturen/vejledninger/text-header.pdf og https://info.clarin.dk/clarin-dk-infrastrukturen/vejledninger/text-format.pdf Dette format kan genereres automatisk vha. en CLARIN-service:https://clarin.dk/clarindk/toolchains-upload.jsp Se vejledning:https://info.clarin.dk/clarin-dk-infrastrukturen/vejledninger/Konvertering-TEI.pdf Og se beskrivelse af DK-CLARINs tekster I TEI-format:https://info.clarin.dk/clarin-dk-infrastrukturen/tekster-i-tei-format/ De fleste af disse korpora findes nu også som pakkede zip-filer i datacentret: https://repository.clarin.dk/repository/xmlui/ |
Leksika | LMF |
Et meget udbredt og anbefalet format for ordbøger og online leksikalske ressourcer er Lexical Markup Framework (LMF). LMF er ISO-standarden (ISO-24613:2008) for natursprogsprocessering af maskinlæsbare ordbøger og leksikalske ressourcer. LMF kombinerer designs og metoder fra mange eksisterende NLP-leksikoner. Den overordnede ramme er baseret på de generelle træk ved eksisterende leksikoner hvor man har satset på at udvikle en konsistent terminologi til at beskrive komponenterne i leksikonerne. Derudfra har man så designet en model der bedst kunne repræsentere alle træk i disse leksikoner. Hjemmesiden http://www.lexicalmarkupframework.org/ giver eksempler på ordbogsformater for flere sprog. Selve standarden kan købes på Dansk Standards webshop: https://webshop.ds.dk/da-dk/standarder/standard/ds-iso-246132008. I CLARIN-DK bruger Den SprogTeknologiske Ordbase for dansk (STO) LMF som eksportformat:https://repository.clarin.dk/repository/xmlui/handle/20.500.12115/22 and https://repository.clarin.dk/repository/xmlui/handle/20.500.12115/23 Selve ordbasen er en database, der konverteres til LMF ved eksporten. |
Wordnet |
Det danske wordnet, DanNet, https://repository.clarin.dk/repository/xmlui/handle/20.500.12115/25, følger den generelle standard for Wordnets. Det betyder at det bruger top-ontologien fra det europæiske wordnet, EuroWordNet, og strukturen fra Princeton Wordnet, hvor et eller flere synonymer grupperes med et fælles overbegreb og andre potentielle relationer. Læs mere om organisering i Lingvistiske specifikationer for DanNet Version 2: https://cst.ku.dk/projekter/dannet/dannetspecifikationer_v2.pdf. Som eksportformat kan man vælge et Rdf/owl-format eller et csv-format. Owl-formatet følger W3C-udvidelsen for repræsentation af wordnets: http://www.w3.org/TR/wordnet-rdf/. |
|
Multimodal annotation | MUMIN annotations- skemaer | MUMIN specifikationer for at opmærke kommunikative gestusser i ANVIL og ELAN-formater: https://repository.clarin.dk/repository/xmlui/handle/20.500.12115/43 |
Desuden understøtter CLARIN-DK alle standarder og formater der anbefales af CLARIN.