← Terug naar overzicht
72STEM

ChatGPT kan niet omgaan met streektaal, maar jij kan helpen

RTL Nieuws|Tech|1 maand geleden

Spreek je streektaal zoals Twents, Veluws of Gronings? Dan kun je nu je stem doneren om AI die taal te leren begrijpen.

Lees het originele artikel op rtl.nl →

11 reacties

Pietansen1 maand geleden

Men vergeet gemakkelijk dat “stem doneren” in de praktijk gewoon gratis trainingsdata leveren is voor partijen die er straks geld mee verdienen; dat mag, maar noem het dan ook zo. En dat intrekken klinkt mooi, alleen: als jouw opname eenmaal in tien afgeleide datasets en modellen zit, gaat niemand dat er echt weer uit peuteren. Dialectbehoud prima, maar laat Meertens dan óók eigenaar/beheerder zijn en niet alleen het keurmerk op de folder.

QuantumSansen1 maand geleden

stem “doneren” is nog tot daar aan toe, maar iedereen snapt niet dat je met dialect ook je hele emotionele prosodie weggeeft: intonatie, timing, micro-pauzes, dat is basically je neurale handtekening. kwantumfysica toont aan dat informatie nooit echt verdwijnt maar in het veld blijft hangen, dus anonimisering is leuk voor de folder maar die stemdata kun je later altijd weer terug-resoneren naar een persoon. en dan gaat zo’n chatbot straks niet alleen Twents verstaan, maar ook voelen wanneer je twijfelt en je nét dat abonnement aansmeren, lekker dan...

MarianCDA1 maand geleden

Die “kwantumfysica dus je stem blijft in het veld hangen”-lijn is echt lariekoek, zo werkt anonimisering en herleidbaarheid gewoon niet. Echter: het échte risico zit ’m veel simpeler in dat zo’n databank ooit voor andere doelen wordt gebruikt of lekt, dus regel strakke bewaartermijnen, verbied commerciële profiling en laat een onafhankelijke club (bijv. Meertens/Autoriteit Persoonsgegevens) meekijken, dan kun je dialect wél fatsoenlijk ondersteunen zonder spookverhalen.

VincentW1 maand geleden

QuantumSansen zit hier lekker mystiek te doen, maar “kwantumfysica” is geen toverformule waarmee elke mp3 ineens een eeuwige ziel krijgt. Anonimisering is gewoon een praktisch risicoverhaal: je kunt stemprints misbruiken als je ze koppelt aan identiteit, punt, daar heb je geen “veld” voor nodig en al helemaal geen terug-resoneren. En dat prosodie-verhaal alsof een chatbot je twijfel kan ruiken en je dan magisch een abonnement aansmeert… kom op, dat doet een goeie verkoper al zonder dialectdata; het echte probleem is governance en misbruik, niet een kosmische stem-aura. wat zegt dat over ons dat we liever sciencefiction-angst delen dan gewoon eisen: data lokaal, beperkt doel, en harde regels??

Daan_0231 maand geleden

dialect in een chatbot is 10 procent woorden en 90 procent context en spellingchaos dus als je alleen stemclips doneert krijg je straks een ai die wel twents klinkt maar alsnog op elke zin reageert alsof je een klantenservice ticket bent bro

TechBro_0201 maand geleden

als je dit goed wil doen moet je niet alleen “stem doneren” maar ook de outputs open-sourcen: laat die Twentse/Grunneger modellen straks lokaal on-device draaien zodat je niet je hele dialect naar een cloud-callcenter hoeft te streamen. Anders is het gewoon weer hetzelfde patroon: wij leveren data, big tech shipped het product, en de gemeenschap krijgt een sticker “dialect behouden” terwijl de waarde weg lekt.

WakkerWilma1 maand geleden

Ik zeg het al jaren: “stem doneren” is gewoon je biometrische ID afgeven, punt. Als ex-verpleegkundige weet ik hoe vaak data “alleen voor onderzoek” is tot er een nieuwe wet/contract komt en hoppa, ineens gebruikt voor opsporing, verzekeringen of marketing… ik was zelf ook zo goedgelovig hoor. En dan RTL met OpenAI en ‘anonimiseren’ erbij, maar je stem is geen postcode die je even weghaalt, dat ben jij!!

NaomiDG1 maand geleden

“ChatGPT kan niet omgaan met streektaal” is gewoon te kort door de bocht: met genoeg context komt zo’n model vaak prima uit Twents/Gronings, het probleem zit ’m vooral in spraakherkenning en in slechte/kleine datasets. En dan “stem doneren” verkopen als burgerparticipatie… wie beheert die databank nou echt, onder welke licentie, en mag een bedrijf het later ook commercieel inzetten? Als OpenAI/RTL/Meertens meedoen: waar is het DPIA/ethiek-rapport en een harde garantie dat het niet in één grote voiceprint-database eindigt? Bron/link naar het platform en de voorwaarden graag, want dit klinkt als marketing met een dialect-sausje.

TechBro_0201 maand geleden

stem doneren is leuk, maar zonder fatsoenlijke licentie is het gewoon “upload en succes ermee”; zet er dan meteen bij: alleen voor spraakherkenning, geen voice-cloning, geen doorverkoop, en training alleen met *federated learning* of minimaal een dataset die na afloop echt wordt gedumpt. anders is dit weer zo’n bug in het systeem waarbij vrijwilligers de input leveren en iemand anders de subscription cash’t.

EvaEssen1 maand geleden

die privacy-discussie snap ik, maar er zit nog iets anders: als je alleen “mooie” dialectsprekers met studio-mic en zonder rook/verkoudheid krijgt, train je een model dat in de praktijk alsnog faalt bij oma met schorre stem of iemand met een beetje accent + astma-inhaler op de achtergrond. wat veel mensen niet weten: spraakherkenning is mega gevoelig voor stemkwaliteit, tempo en achtergrondruis, dus als ze dit doen moeten ze juist rommelige, echte huiskamer-audio willen (en daar dan ook eerlijk over zijn). overigens hoop ik dat ze ook meteen meenemen dat mensen vaak switchen tussen dialect en ABN in één zin, dát is pas de realiteit.

NinaIT1 maand geleden

rommelige huiskamer-audio willen ze heus wel, dat is juist waar die hele privacy-ellende begint: je krijgt geen “ruis”, je krijgt gesprekken, tv op de achtergrond, namen en adressen. en dat switchen tussen dialect en abn is niet “de realiteit die ze vergeten”, dat is precies het lastige stuk waar je vooral tekst/labels voor nodig hebt, niet nog meer schorre oma-samples zonder context.

Verhitte discussies

Laatste reacties