Valideringskrav for resurser – Københavns Universitet

Videresend til en ven Resize Print Bookmark and Share

Forside > CLARIN-DK-platformen > Brug CLARIN-DK-platformen > Deponer resurser > Valideringskrav for re...

Valideringskrav

Generelle forhold

  • XML-filer der deponeres, skal være med utf-8 encoding
  • Ved deponering af resurser skal der vælges en af de følgende muligheder. Se mere om resursetyper her

Tekstresurser i TEIP5DKCLARIN-format

  • XML-filer skal valideres i forhold til rng-skemaet: http://clarin.dk/schemas/tei/TEIDKCLARIN.rng
  • Disse tekstresurser kan deponeres sammen med annoteringer. Hvis der er annoteringer i TEIP5DKCLARIN-filen, deponeres disse som selvstændige resurser, og der oprettes relationer mellem annoteringerne og teksten.
  • Antallet af <application>-elementer i headeren og <spanGrp>-elementer i <body> skal være ens
  • Hvert <application>-element skal have et xml:id-attribut, som matcher et spanGrp's ana-attribut

Tekstresurser i TEIP5DKCLARIN-format inkl. tiff-filer

  • XML-filer skal valideres i forhold til rng-skemaet: http://clarin.dk/schemas/tei/TEIDKCLARIN.rng
  • Disse tekstresurser kan deponeres sammen med annoteringer. Hvis der er annoteringer i TEIP5DKCLARIN-filen, deponeres disse som selvstændige resurser, og der oprettes relationer mellem annoteringerne og teksten.
  • Antallet af <application> elementer i headeren og <spanGrp> elementer skal være ens
  • Hvert <application>-element skal have et xml:id-attribut som matcher et spanGrp's ana-attribut
  • Der skal være præcis én xml-fil i deponeringen
  • Der skal være mindst én tiff-fil i deponeringen
  • Referencer til tiff-filer angives i <pb>. Billedet dækker den efterfølgende del af teksten indtil næste <pb>-tag

Tekstannoteringsresurser i TEIP5DKCLARIN_ANNO-format

  • XML-filer skal valideres i forhold til rng-skemaet: http://clarin.dk/schemas/tei/TEIDKCLARIN_ANNO.rng
  • Antallet af <application>-elementer i headeren og <spanGrp>-elementer i <body> skal være ens
  • Hvert <application>-element skal have et xml:id-attribut som matcher et spanGrp's ana-attribut
  • I <body> kan blot angives en <ab/>

Leksikon-resurser

  • Deponeringen skal indeholde præcis én xml-fil med metadata
  • Metadata skal valideres i forhold til rng-skemaet: http://clarin.dk/schemas/tei/TEIDKCLARIN_LEX.rng
  • Deponeringen må indeholde en README-fil i .txt-format
  • Deponeringen skal indeholde mindst én zip-fil med selve resursen

Lyd, Video og Mediaannoteringer

  • Deponeringen skal ske som en IMDI-session, beskrevet med en IMDI-fil
  • IMDI-filen skal indeholde gyldige url’er til lyd- og eller video-ressourcer, samt til de øvrige ressourcer der beskrives i IMDI-filen
  • IMDI-filen skal kunne valideres i forhold til wp3-validator og IMDI-standarden
  • XML-filer der vedlægges som en IMDI WrittenResource, skal være med utf-8 encoding
  • En IMDI-fil behøver ikke indeholde video- eller lyd-resurser.

Dataresurser

  • Som data deponeres de resurser som ikke passer ind i de øvrige typer.
  • Deponeringen skal indeholde præcis én xml-fil med metadata
  • Metadata skal validere i forhold til rng skemaet: http://clarin.dk/schemas/cmd/DKCLARIN_DATA.rng
  • Deponeringen må indeholde en README-fil i .txt-format.
  • Deponeringen skal indeholde mindst én zip-fil med selve resursen

Relationer

  • Relationer mellem resurser kan importeres vha. relationslister i en csv-fil. Du kan på nuværende tidspunkt kun tilføje relationer til resurser du selv har deponeret!
  • Relationslisten udtrykkes i csv-format: RelationType;CPName;CPId;RelCPName;RelCPId;RelId;
  • RelationType angiver typen af relation.
  • CPName angiver "ejeren"/organisationName for den der importerede resursen.
  • CPId angiver den lokale ID som Content Provider benytter for resursen. Det er op til den enkelte Content Provider at sikre at de lokale ID’er der benyttes, er unikke for den enkelte Content Provider.
  • RelCPName angiver Content Provider for den resurse der skal peges på.
  • RelCPId angives hvilken ressource der skal "peges på" i relationen.
  • RelId kan angive en id for relationen. RelId kan udelades, men øvrige felter skal indeholde data.
  • I de situationer hvor man angiver repositorie-ID'er i csv-filen så angives CPName og RelCPName som 'CLARIN-DK'


Hostet af Københavns Universitet