Tale til tekst-teknologien blir stadig bedre takket være kunstig intelligens. Det kan hørselshemmede juble for.
Tenk deg at du har en viktig samtale på et sted med mye folk og dårlig akustikk. Ord og setninger forsvinner i støy og gjør deg usikker på om du egentlig hører det som blir sagt. Hadde du hatt med en skrivetolk, kunne du fått samtalen tekstet. Men tolk har du ikke. Derimot har du smarttelefon. Da kan du laste ned en gratis app som gjør det mulig å «skrive» med stemmen. Ved hjelp av talegjenkjenningsteknologi blir samtalen tekstet fortløpende på mobilskjermen. Smart, ikke sant?
Testet av brukere
På få år har det kommet flere mobilapper og programmer basert på talegjenkjenningsteknologi, slik at vi for eksempel kan få tekstet digitale møter i sanntid.
Så er spørsmålet: Hvor god er egentlig denne nye teknologien for hørselshemmede?
Dette var utgangspunktet for prosjektet «Tale til tekst», som Universell Utforming AS gjennomførte i 2022 i samarbeid med Hørselshemmedes Landsforbund (HLF). Som en del av kartleggingen ble det gjennomført brukertester med ulike talegjenkjenningsprodukter på personer med nedsatt hørsel.
PROSJEKTLEDER. Sigrid Skavlid er seniorrådgiver i Universell Utforming AS. Foto. Trond Isaksen. |
Avhengig av resthørsel
«Tale til tekst-teknologi er et steg i riktig retning av et mer universelt utformet samfunn, men teknologien er ikke god nok til at den fungere for alle», lyder konklusjonen i rapporten. Prosjektleder og seniorrådgiver Sigrid Skavlid i Universell Utforming utdyper:
- Visse produkter kan fungere greit i en til en-samtaler, som jo er de enkleste for hørselshemmede. Men teknologien svikter når behovet for teksting er størst, nemlig i situasjoner med bakgrunnsstøy eller der flere snakker samtidig. Erfaringene fra testingen viser at man er avhengig av en viss resthørsel for å få med seg alle detaljer.
Best på bokmål
Blant «barnesykdommene» som teknologien har er at den «hører» feil ord, utelater ord og har problemer med dialekter, forkortelser, faguttrykk, tall og egennavn. Dessuten favoriserer den bokmål. Diktering til nynorsk fins, men den har lavere kvalitet enn bokmål. For norsk tegnspråk fins det ingen tegn til tekst-teknologi. Denne mangelen gjelder også for de samiske språkene. Dette skyldes at programmene ikke har fått nok språkdata å trene seg på.
Spontan tale funker dårlig
Tekstingen, også kalt transkriberingen, blir best når den som har ordet snakker bokmål eller bokmålsnære dialekter og snakker i hele setninger, uten for mye frem og tilbake og tankesprang.
- Testene våre viser at den naturlige spontane talen kan bli nokså uforståelig. Muntlig tale inneholder jo mange fyllord, halve setninger og gjentakelser. Å få denne typen tale overført til korrekt tekst med hele setninger og riktig tegnsetting er det foreløpig kun menneskehjernen som får til. Teknologien klarer det foreløpig ikke, fastslår Skavlid.
Rask utvikling
Hun er likevel imponert over hvor raskt utviklingen går innen et teknologifelt som stadig blir smartere. Stikkordet er kunstig intelligens (KI) eller artificial intelligence (AI) på engelsk.
- Kunstig intelligens åpner for stadig bedre transkriberingsverktøy. Bare i løpet av prosjektperioden vår kom nye tjenester og muligheter både for mobil og PC. Vi fikk «tekst til bildegenerering» og «tekst til videogenerering» og ikke minst kom ChatGPT. Utviklingen går så raskt at vår kartlegging må sees på som et her og nå-bilde for høsten 2022. Om få år vil vi ha enda bedre programmer.
Ut med skrivetolkene?
- Betyr dette at for eksempel skrivetolker blir overflødige?
- Jeg tror det er et stykke frem til teknologien kan konkurrere med skrivetolker. Levende tolker legger inn forkortelser og faguttrykk på forhånd i sine programmer utfra hvilke oppdrag de har, og de skriver fortløpende og sammenhengende. Dette i motsetning til datasystemene som stadig må gjette på sammenhenger. Det er også forskjell på gratisløsninger og på talegjenkjenningsprodukter som er trenet på et spesielt fagfelt eller der man kan legge inn navn og uttrykk selv. Disse vil være flinkere til å «forstå» og skrive riktig, forklarer Skavlid.
Praktisk guide
Som en del av prosjektet til Universell Utforming og HLF ble det laget en pratisk tale til tekst-guide for hørselshemmede. Den beskriver hvor du finner tale til tekst-funksjonen i ulike skrivebordsprogrammer og mobilapper, hvordan du kan direktetekste til dokumenter via PC og mobil. Her er også tips om ulike gratisprogrammer du kan benytte.
Guiden kan lastes ned som PDF fra HLFs nettside: https://www.hlf.no/taletiltekst
Les også: Hanne har skrivetolk på skolen
Fakta
Talegjenkjenningsteknologi
- Talegjenkjenningsteknologi, også kalt tale til tekst, er en teknologi basert på kunstig intelligens (KI).
- KI er digitale systemer som blir dyktigere jo mer data de trener på. Et eksempel på dette er å gjenkjenne ord og transkribere ordene til tekst. Her må systemet "mates" både med hvordan ord skrives og på hvilke måter de konkrete ordene blir uttalt av personer med ulike aksenter og dialekter.
- Systemet må samtidig lære hva som er sannsynlige ord i en setning. Etter hvert vil det da lære at i setningen «Kjære, alle sammen», er det ordet «kjære» som skal brukes,. Ikke «tjære», selv om ordet uttales likt.
Kilder: «Talegjenkjenningsteknologi - en kunnskapsoppsummering» av Universell Utforming 2022, Sintef og Wikipedia
Fakta
Merk deg disse symbolene!
Disse ikonene viser om PC-programmene eller mobilappene dine er utstyrt med tale til tekst-funksjoner.
Ikonene for tekst og mikrofon kan se litt forskjellig ut i de ulike programmene.
Symbolet med tre prikker er en markering i programmet som indikerer at du her finner ytterligere verktøy, som for eksempel teksting.