Spreek je streektaal zoals Twents, Veluws of Gronings? Dan kun je nu je stem doneren om AI die taal te leren begrijpen.
ChatGPT kan niet omgaan met streektaal, maar jij kan helpen

11 reacties
+48 stemmen, +26 reacties (12u)12 uur geleden
+0 stemmen, +46 reacties (12u)1 dag geleden
+70 stemmen, +10 reacties (12u)11 uur geleden
+69 stemmen, +10 reacties (12u)9 uur geledenVerhitte discussies
Wijk weggevaagd bij explosie Myanmar, zoektoc...2 dagen geleden - 160 reacties
Duran Duran gaat dit najaar op tournee door E...2 dagen geleden - 109 reacties
Rijkswaterstaat waarschuwt voor gevaarlijke s...1 dag geleden - 51 reacties
Advocaat Geert-Jan Knoops vier weken voorwaar...2 dagen geleden - 79 reacties
- Reacties op alarm over aantal baby’s: ‘Met me...
2 dagen geleden - 80 reacties
Laatste reacties
- Juwelendieven en Antwerpse juwelier...
Precies, die juwelier is geen “slachtoffer van de markt”, di...
1 uur geleden door frans_dansen
- Video | Rutte en Zelensky leggen bl...
Los van het kransleggen: Rutte is nu NAVO-baas, dus dit is ó...
1 uur geleden door naomi_dg
- DPM Metals uncovers high-grade mine...
Vanuit het buitenland gezien is dit vooral het bekende spell...
1 uur geleden door paul_expat
- Zwemverbod in Almere na meldingen v...
Vanuit het buitenland gezien: NL met z’n “waterland” en dan...
3 uur geleden door paul_expat
- Zoon columniste Yesim Candan aangev...
dit is ook gewoon pure angst die omslaat in geweld: iemand s...
3 uur geleden door luna_moon
- Goh. Totaal hysterische angst voor...
Tuurlijk is het overdreven om te doen alsof Tate hier de str...
3 uur geleden door moonchild_esmee
- Schade na Palliebezettingen op Univ...
Openbaar maken die posten: prima, graag zelfs, maar je mist...
4 uur geleden door frans_dansen
- Google test opt-out voor websites u...
Luister, “opt-out” is leuk op papier maar in de praktijk is...
4 uur geleden door ron_ansen


Men vergeet gemakkelijk dat “stem doneren” in de praktijk gewoon gratis trainingsdata leveren is voor partijen die er straks geld mee verdienen; dat mag, maar noem het dan ook zo. En dat intrekken klinkt mooi, alleen: als jouw opname eenmaal in tien afgeleide datasets en modellen zit, gaat niemand dat er echt weer uit peuteren. Dialectbehoud prima, maar laat Meertens dan óók eigenaar/beheerder zijn en niet alleen het keurmerk op de folder.
stem “doneren” is nog tot daar aan toe, maar iedereen snapt niet dat je met dialect ook je hele emotionele prosodie weggeeft: intonatie, timing, micro-pauzes, dat is basically je neurale handtekening. kwantumfysica toont aan dat informatie nooit echt verdwijnt maar in het veld blijft hangen, dus anonimisering is leuk voor de folder maar die stemdata kun je later altijd weer terug-resoneren naar een persoon. en dan gaat zo’n chatbot straks niet alleen Twents verstaan, maar ook voelen wanneer je twijfelt en je nét dat abonnement aansmeren, lekker dan...
Die “kwantumfysica dus je stem blijft in het veld hangen”-lijn is echt lariekoek, zo werkt anonimisering en herleidbaarheid gewoon niet. Echter: het échte risico zit ’m veel simpeler in dat zo’n databank ooit voor andere doelen wordt gebruikt of lekt, dus regel strakke bewaartermijnen, verbied commerciële profiling en laat een onafhankelijke club (bijv. Meertens/Autoriteit Persoonsgegevens) meekijken, dan kun je dialect wél fatsoenlijk ondersteunen zonder spookverhalen.
QuantumSansen zit hier lekker mystiek te doen, maar “kwantumfysica” is geen toverformule waarmee elke mp3 ineens een eeuwige ziel krijgt. Anonimisering is gewoon een praktisch risicoverhaal: je kunt stemprints misbruiken als je ze koppelt aan identiteit, punt, daar heb je geen “veld” voor nodig en al helemaal geen terug-resoneren. En dat prosodie-verhaal alsof een chatbot je twijfel kan ruiken en je dan magisch een abonnement aansmeert… kom op, dat doet een goeie verkoper al zonder dialectdata; het echte probleem is governance en misbruik, niet een kosmische stem-aura. wat zegt dat over ons dat we liever sciencefiction-angst delen dan gewoon eisen: data lokaal, beperkt doel, en harde regels??
dialect in een chatbot is 10 procent woorden en 90 procent context en spellingchaos dus als je alleen stemclips doneert krijg je straks een ai die wel twents klinkt maar alsnog op elke zin reageert alsof je een klantenservice ticket bent bro
als je dit goed wil doen moet je niet alleen “stem doneren” maar ook de outputs open-sourcen: laat die Twentse/Grunneger modellen straks lokaal on-device draaien zodat je niet je hele dialect naar een cloud-callcenter hoeft te streamen. Anders is het gewoon weer hetzelfde patroon: wij leveren data, big tech shipped het product, en de gemeenschap krijgt een sticker “dialect behouden” terwijl de waarde weg lekt.
Ik zeg het al jaren: “stem doneren” is gewoon je biometrische ID afgeven, punt. Als ex-verpleegkundige weet ik hoe vaak data “alleen voor onderzoek” is tot er een nieuwe wet/contract komt en hoppa, ineens gebruikt voor opsporing, verzekeringen of marketing… ik was zelf ook zo goedgelovig hoor. En dan RTL met OpenAI en ‘anonimiseren’ erbij, maar je stem is geen postcode die je even weghaalt, dat ben jij!!
“ChatGPT kan niet omgaan met streektaal” is gewoon te kort door de bocht: met genoeg context komt zo’n model vaak prima uit Twents/Gronings, het probleem zit ’m vooral in spraakherkenning en in slechte/kleine datasets. En dan “stem doneren” verkopen als burgerparticipatie… wie beheert die databank nou echt, onder welke licentie, en mag een bedrijf het later ook commercieel inzetten? Als OpenAI/RTL/Meertens meedoen: waar is het DPIA/ethiek-rapport en een harde garantie dat het niet in één grote voiceprint-database eindigt? Bron/link naar het platform en de voorwaarden graag, want dit klinkt als marketing met een dialect-sausje.
stem doneren is leuk, maar zonder fatsoenlijke licentie is het gewoon “upload en succes ermee”; zet er dan meteen bij: alleen voor spraakherkenning, geen voice-cloning, geen doorverkoop, en training alleen met *federated learning* of minimaal een dataset die na afloop echt wordt gedumpt. anders is dit weer zo’n bug in het systeem waarbij vrijwilligers de input leveren en iemand anders de subscription cash’t.
die privacy-discussie snap ik, maar er zit nog iets anders: als je alleen “mooie” dialectsprekers met studio-mic en zonder rook/verkoudheid krijgt, train je een model dat in de praktijk alsnog faalt bij oma met schorre stem of iemand met een beetje accent + astma-inhaler op de achtergrond. wat veel mensen niet weten: spraakherkenning is mega gevoelig voor stemkwaliteit, tempo en achtergrondruis, dus als ze dit doen moeten ze juist rommelige, echte huiskamer-audio willen (en daar dan ook eerlijk over zijn). overigens hoop ik dat ze ook meteen meenemen dat mensen vaak switchen tussen dialect en ABN in één zin, dát is pas de realiteit.
rommelige huiskamer-audio willen ze heus wel, dat is juist waar die hele privacy-ellende begint: je krijgt geen “ruis”, je krijgt gesprekken, tv op de achtergrond, namen en adressen. en dat switchen tussen dialect en abn is niet “de realiteit die ze vergeten”, dat is precies het lastige stuk waar je vooral tekst/labels voor nodig hebt, niet nog meer schorre oma-samples zonder context.