0605.08 Terug
Vooruit 0605.10

Med: 0605.09

Date: Mon, 15 May 2006 18:16:46 +0200
From: Remco van Veenendaal <veenendaal@inl.nl>
Subject: Med: 0605.09: Corpus Gesproken Nederlands (CGN) versie 2.0 beschikbaar bij de TST-centrale

CGN versie 2.0 beschikbaar bij de TST-centrale

Het Corpus Gesproken Nederlands (CGN) is een verzameling van ongeveer 900 uur gesproken Standaardnederlands afkomstig van Vlamingen en Nederlanders. Alle opnames zijn opgelijnd met een orthografische transcriptie en alle woorden zijn voorzien van een POS-tag en een lemma. Een deel van de data is verrijkt met syntactische, prosodische en/of fonetische informatie. Het CGN wordt geleverd met de corpusexploitatiesoftware COREX. Versie 1.0 van het CGN (de eindrelease) is sinds 2004 beschikbaar.

De TST-centrale van het INL heeft in 2004 en begin 2005 het CGN beheerd en onderhouden in samenwerking met het Max Planck Instituut te Nijmegen. Dit heeft onder andere geleid tot twee updates, die u kunt downloaden via http://www.mpi.nl/COREX.

Na de updates is de TST-centrale zelfstandig verder gegaan met het beheer en onderhoud van het CGN. Daarnaast zijn belangrijke nieuwe materialen beschikbaar gekomen: een nieuwe versie van het CGN-lexicon, uitgebreidere frequentielijsten en annotaties voor 13 Vlaamse bestanden, waarvan alleen de geluidsbestanden waren opgenomen in de eindrelease. Ook zijn de documentatie en metadata geüpdatet. Reden genoeg om niet van een nieuwe update, maar van een nieuwe versie te spreken. Ten slotte is, onder andere om CGN-gebruikers directer te kunnen ondersteunen, de distributie van het CGN nu in handen van de TST-centrale.

De belangrijkste verbeteringen zijn:

  1. nieuwe data
    • CGN-lexicon 2.0
    • annotaties voor 13 Vlaamse geluidsbestanden
    • uitgebreidere frequentielijsten
  2. bugfixes
    • in de annotaties
      . verbetering van ruim 4.500 POS- en/of lemmabugs
      . verbetering van bijna 200 orthografische bugs
    • in de metadata
      . aanvulling van metadata van ruim 50 sprekers
      . ontdubbeling van 16 sprekers
    • in COREX
      . verbetering van ruim 40 urgente bugs
  3. documentatie geüpdatet
    • up to date gebracht met CGN versie 2.0
    • projectdocumentatie en handleiding COREX volgens spelling '05
  4. metadata geüpdatet
    • van IMDI 1.8 naar IMDI 3.0
Voor een upgrade van CGN 1.0 (de eindrelease) naar CGN 2.0 volstaat de aanschaf van de annotatie-dvd.

De TST-centrale biedt inhoudelijke en technische ondersteuning, maar verzorgt bijvoorbeeld ook workshops, gastcolleges en/of practicumbegeleiding, zodat gebruikers snel kunnen leren werken met het CGN en COREX.

Voor meer informatie, prijzen en/of voorwaarden, surf naar http://www.tst.inl.nl en kies "Producten". Voor het melden (en tracken) van CGN-bugs, surf naar http://bugzilla.tst.inl.nl.


[Dit nummer]