| 0605.08 |
|
|
|
0605.10 |
|
Med: 0605.09
Date: Mon, 15 May 2006 18:16:46 +0200
CGN versie 2.0 beschikbaar bij de TST-centraleHet Corpus Gesproken Nederlands (CGN) is een verzameling van ongeveer 900 uur gesproken Standaardnederlands afkomstig van Vlamingen en Nederlanders. Alle opnames zijn opgelijnd met een orthografische transcriptie en alle woorden zijn voorzien van een POS-tag en een lemma. Een deel van de data is verrijkt met syntactische, prosodische en/of fonetische informatie. Het CGN wordt geleverd met de corpusexploitatiesoftware COREX. Versie 1.0 van het CGN (de eindrelease) is sinds 2004 beschikbaar.De TST-centrale van het INL heeft in 2004 en begin 2005 het CGN beheerd en onderhouden in samenwerking met het Max Planck Instituut te Nijmegen. Dit heeft onder andere geleid tot twee updates, die u kunt downloaden via http://www.mpi.nl/COREX. Na de updates is de TST-centrale zelfstandig verder gegaan met het beheer en onderhoud van het CGN. Daarnaast zijn belangrijke nieuwe materialen beschikbaar gekomen: een nieuwe versie van het CGN-lexicon, uitgebreidere frequentielijsten en annotaties voor 13 Vlaamse bestanden, waarvan alleen de geluidsbestanden waren opgenomen in de eindrelease. Ook zijn de documentatie en metadata geüpdatet. Reden genoeg om niet van een nieuwe update, maar van een nieuwe versie te spreken. Ten slotte is, onder andere om CGN-gebruikers directer te kunnen ondersteunen, de distributie van het CGN nu in handen van de TST-centrale. De belangrijkste verbeteringen zijn:
De TST-centrale biedt inhoudelijke en technische ondersteuning, maar verzorgt bijvoorbeeld ook workshops, gastcolleges en/of practicumbegeleiding, zodat gebruikers snel kunnen leren werken met het CGN en COREX. Voor meer informatie, prijzen en/of voorwaarden, surf naar http://www.tst.inl.nl en kies "Producten". Voor het melden (en tracken) van CGN-bugs, surf naar http://bugzilla.tst.inl.nl. |