Guide

Teksting av lyd og video

Video med lyd og lydopptak skal tekstes. I denne artikkelen får du noen enkle tips, og lenker til hvor du kan lese mer.

Oppdatert 23. mars 2023

Innholdet kan være utdatert

Det er over 1 år siden innholdet ble revidert. Vi kan ikke være helt sikre på hvor nøyaktig artikkelen er lenger.

Illustrert bilde av en video-avspiller med teksting på en dataskjerm. — Illustrasjon av en videospiller med teksting.

Denne artikkelen baseres på innhold fra boka Universell utforming av dokumenter.

Den første filmen med teksting var "Don Juan" fra 1926, regissert av Alan Crosland og produsert av Warner Bros. Den hadde ikke dialog, men hadde en introduksjon og noen mellomtekster som ble projisert på skjermen. De ble laget ved å male ordene på små glassplater og deretter plassere dem foran kameraet når de ble filmet. Dette gjorde det mulig for publikum å følge med på handlingen og dialogen i filmen. Så selv om den ikke hadde "ekte" teksting, regnes "Don Juan" som den første filmen med tekstlige elementer som ble brukt til å formidle informasjon til publikum.

Teksting er mindre ressurskrevende i dag, men det produseres for mye lyd og video uten tekst. God teksting innebærer litt arbeid, men med automatisert talegjenkjenning (transkribering) er det ganske greit å få på plass en tekst som kan forbedres. Teksten er et nødvendig tillegg for å gjøre lyd og video universelt utformet.

WCAG og teksting

Følgende suksesskriterier på nivå A og AA i WCAG omhandler teksting av lyd og video:

Hvem har nytte av teksting?

Mange mennesker med nedsatt hørsel trenger teksting eller tegnspråk for å få med seg det som kan høres på video og lydopptak. I WCAG er det ingen krav til tegnspråk på nivå A eller AA (altså lovpålagte krav). Vurder likevel om du kan legge til tegnspråk: både på live-sendinger og forhåndsinnspilt innhold; Det er nyttig for de som har tegnspråk som førstespråk.

Teksting er også nyttig for de som har god hørsel, for eksempel i omgivelser med mye støy eller i omgivelser der det ikke er ønskelig å spille av lyden. Søkemotorer kan utnytte tekst. Derfor er tekst god søkemotoroptimalisering.

To litt ulike tekstalternativer

Tekst kan vises synkronisert med video eller lyd, og dette er nok det de fleste tenker på når det snakkes om teksting. Teksten kan også være et frittstående alternativ (transkripsjon) og i denne artikkelen har jeg brukt «tekstalternativ» når teksten er et frittstående alternativ til lyd eller video.

Inkluder gjerne både synkronisert teksting og et tekstalternativ når du legger ut video. For døvblinde kan tekstalternativet være den eneste måten å få tilgang til innholdet på.

Tekstalternativet kan:

Vises rett under videoen eller lydopptaket. Inkluder gjerne en lenke for å hoppe over teksten dersom det finnes annet innhold lengre ned på siden.
Vises på en egen side (med en lenke fra lyd/videoavspilleren)
Vises i en modal (med en knapp for å åpne modalen).

Det er mulig å lage tekstalternativer der du kan velge (klikke eller trykke Enter) i teksten for å starte videoen på tidspunktet der teksten hører hjemme. Able Player er så vidt jeg vet den eneste HTML5 videoavspilleren som støtter synkronisert tekstalternativ.

Synkronisert teksting og tekstalternativ skal inneholde det samme med følgende unntak.

Spesielt for synkronisert teksting

Teksten bør bruke konvensjonell stavemåte, ikke forsøk å skrive ord fonetisk, bortsett fra når fonetisk stavemåte er avgjørende for betydningen av innholdet.
Teksten skal beskrive lyder i form av lydene i seg selv, ikke handlingene som forårsaker lydene.

Spesielt for tekstalternativ

Viktige visuelle hendelser skal beskrives i utskriften.

Åtte tips til riktig teksting

Les gjerne Retningslinjer for god teksting i Norge (Språkrådet)og Retningslinjer for teksting i NRK.

Tale og viktige lyder skal med i teksten og synkroniseres med bildet hvis det er video.
La teksten bli stående lenge nok (tre sekunder for en tekstlinje, seks sekunder for to tekstlinjer).
Unngå skrivefeil og bruk riktig tegnsetting. Det kan både være riktig og nødvendig å forkorte det som blir sagt.
Vis teksten nederst. Posisjonering av tekst kan brukes for å tydeliggjøre hvem som sier noe, men tekst som dukker opp vilkårlige steder i skjermbildet kan gjøre det vanskeligere å lese teksten for personer med kombinerte syns- og hørselstap.
Start hvert utsagn med en - (bindestrek) hvis flere sier noe i den samme teksten.
- Hvordan var det å delta i Skal vi danse? - Det har vært en fantastisk reise!
Hvis noen sier noe uten at de er synlige i bildet bør navn eller rolle med i tekstingen dersom det er mulig.
Trollet: Nå skal jeg ete deg!
Tollefsen: Jeg elsker å grille!
Lyder skal vises på en konsistent måte: (bil tuter flere ganger), (slurping og smatting)
Bruk lettleste skrifttyper og pass på at linjer ikke blir for lange.

Litt om visuell presentasjon

Deque er et firma som tilbyr både verktøy for testing av tilgjengelighet (universell utforming) og en rekke kurs (Deque University). I kurset «Multimedia, Animations, and Motion» har Deque satt opp krav til visuell presentasjon av synkronisert teksting. I punktlisten nedenfor er disse kravene oversatt til norsk.

Vis maks tre linjer med tekst av gangen.
Linjeskift skal plasseres logisk (eks. på slutten av setninger).
Tekst skal bestå av store og små bokstaver.
Standardfont skal være Sans serif.
Maks antall tegn pr. linje = 32.
Tekst skal stå minst 1 sekund, og helst 0,3 sekund pr. ord.
Tekst skal ikke dekke over annet viktig visuelt innhold.
Hvis mulig skal tekst synkroniseres med lyd.
Standard skal være hvit tekst på svart bakgrunn.
Kontrast tekst/bakgrunn skal være minimum 3:1 (minst 18 punkts tekst).
Standard tekststørrelse skal være minimum 22 pt.
Standard tekst skal være normal (ikke fet).
Farger i teksten skal ikke være den eneste måten å få informasjon på.
Kursiv eller store bokstaver kan brukes for å fremheve i teksten når tegnsetting alene ikke gir den fulle betydningen.
Anførselstegn (eller kursiv/understreking, hvis det støttes i tekstformatet) og store og små bokstaver bør brukes for å angi titler (f.eks. på bøker eller filmer) når det er aktuelt.
Den siste tekstrammen bør fjernes når det er lange perioder uten teksting.
Det skal være et gap på minimum 1,5 s mellom tekstendringer.
Gi beskjed om «stillhet» hvis det kan virke som om noe sies/skjer.
La teksten stå lengre hvis det er spesielt vanskelige eller ukjente ord.
La teksten stå lengre hvis det skjer veldig mye visuelt.

Automatisert teksting

Det har skjedd en rivende utvikling i kvaliteten på STT (Speach To Text) i de siste åra. Ved hjelp av kunstig intelligens og maskinlæring har kvaliteten på automatisert transkribering blitt mye bedre- også for norsk og andre mindre språk. I det siste har spesielt Whisper fått mye oppmerksomhet. Det jobbes med en løsning som bruker Whisper i NAV, og denne artikkelen vil bli oppdatert når en løsning er på plass. Du kan kjøre Whisper lokalt på PC eller Mac. Sjekk for eksempel MacWhisper eller Jojo transcribe. Nedenfor har jeg tatt med en framgangsmåte for de som har lyst til å teste Whisper i nettleseren.

Fortsatt er det behov for å redigere tekst som er produsert av maskiner hvis du vil gjøre teksten best mulig:

Gjenkjenningsfeil forekommer og disse bør rettes.
Automatisert teksting tar med alt. Ofte kan det være hensiktsmessig å forkorte teksten.
Lyder og annen informasjon beregnet for hørselshemmede kommer ikke med i den automatiserte tekstingen, så det må du legge til.

Microsoft Stream

Magnus Nohr har laget en fin video om automatisert teksting i Microsoft Stream som også tar med opplasting til YouTube. Videoen er laget for undervisningssektoren, men er like aktuell for andre som benytter stream.

Automatisk teksting av videoer i Stream

Whisper i nettleseren

Husk at du ikke skal laste opp sensitive data! Framgangsmåten er litt teknisk, men burde være gjennomførbar for mange. Dette er en måte å få testet Whisper på uten alt for mye mekking!

Lag en ny Google Collab fil
Velg GPU:
Meny > Kjøring > Kjøringstype > Maskinvareaksellerator = GPU > Lagre
Installer Whisper. Lim inn følgende kommandoer og velg Kjør (Ctrl+Enter):
!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg
Last opp en fil, for eksempel «Min fil.mp3».
Kjør Whisper med filen du har lastet opp:
!whisper "min fil.mp3"

Det finnes en del kommandoer og du kan få hjelp med kommandoen:
!whisper -h

Du kan for eksempel angi at du vil benytte en større språkmodell:
!whisper "min fil.mp3" --model large-v2

Eller du kan angi språk:
!whisper "min fil.mp3" –-language Norwegian

Microsoft Word for å transkribere lyd- og videoopptak:

Logg på Microsoft 365 med Microsoft Edge eller Chrome.
Velg Hjem > Dikter > transkribere.
I Transkriber-ruten velger du Last opp lyd.
Velg filen du vil transkribere.
Hold transkriberingsruten åpen til jobben er ferdig (du kan gjøre andre ting i mellomtiden). Resultatet lagres i mappen «transkriberte filer» på OneDrive.

Andre verktøy som kan oversette tale til tekst

Mange videoredigeringsprogrammer kan oversette tale til tekst, og jeg kan rett og slett bare råde deg til å sjekke om verktøyene du bruker har slik funksjonalitet.

Skjermopptaksprogrammet Screencast O Matic er et eksempel på programvare som har funksjonalitet for å oversette tale til tekst. Du kan ta opptak av skjermen eller importere eksisterende videofiler og generere teksting på norsk. Det er mulig å redigere tekstingen i etterkant for å rette opp feil og redusere tekst.

YouTube-videoer kan tekstes automatisk, men foreløpig er det kun støtte for engelsk, fransk, indonesisk, italiensk, japansk, koreansk, nederlandsk, portugisisk, russisk, spansk, tyrkisk, tysk, vietnamesisk og ukrainsk. Sjekk tilgjengelige språk og framgangsmåter for automatisert teksting på YouTube Hjelp.

Manuell teksting

Filformatene for synkronisert teksting er ikke så veldig avanserte, og derfor finnes det en rekke måter å lage slike filer på. Selv har jeg rett og slett brukt Excel og noen enkle makroer i Word for å for å lage filer i ulike formater. Men, skal du redigere eller skrive inn teksten er det nok likevel bedre for de fleste å benytte et litt mer ordentlig verktøy. De fleste videoredigeringsprogrammer har funksjonalitet for manuell teksting.

Subtitle Edit er et mye brukt gratisverktøy for teksting. Først importerer du videofilen du skal tekste. Deretter legger du inn tidskoder der det er tale (start/slutt), og til slutt skriver du inn hva som blir sagt, helst som en forkortet versjon. Subtitle Edit kan også oversette tale til tekst automatisk.

Formater for synkronisert teksting

Det finnes en hel del formater for synkronisert teksting, og de vanligste er:

SRT (SubRip Text) er det mest utbredte tekstingsformatet. Det støttes av de fleste medieavspillere og videoredigeringsprogrammer. SRT-filer inneholder tidskoder og tekst for hver undertekst.
ASS (Advanced SubStation Alpha) og SSA (SubStation Alpha) er populære formater blant anime-fansubber, og støtter avansert formatering, inkludert stilisering, skrifttyper, farger og plassering av tekst. Formatene er mindre kompatible enn SRT, men gir mer kontroll over utseendet til undertekstene.
VTT (Web Video Text Tracks) er et format som er utviklet for bruk med HTML5-video og støttes av moderne nettlesere. VTT ligner på SRT, men inneholder flere funksjoner som kommentarer, kapittelmarkører og stilisering.
TTML (Timed Text Markup Language) og DFXP (Distribution Format Exchange Profile) er XML-baserte formater som støtter avansert formatering, inkludert animasjon, skrifttyper, farger og plassering av tekst. Formatene brukes ofte i profesjonelle kringkastings- og strømmetjenester, som BBC og Netflix.
SBV (YouTube SubViewer) er et enklere format som primært brukes av YouTube for å laste opp og vise undertekster. SBV-filer inneholder tidskoder og tekst for hver undertekst, men støtter ikke avansert formatering.

Tekst kan brennes inn i selve videoen eller være en separat fil. For web er det nesten alltid best å ha teksten i en separat fil. Det muliggjør at tekstingen kan skrus av/på, og VTT er sannsynligvis det formatet som bør velges.

Caption / subtitle

Hvis du skal google med engelske søkeord kan det være nyttig å vite at «caption» og «subtitle» brukes litt forskjellig i USA og Storbritannia.

I USA brukes «captions» om tekst laget for hørselshemmede. «Subtitles» er språkoversettelse eller klargjøring (for eksempel for uklar tale).
I Storbritannia refererer begrepet «subtitles» vanligvis til tekst som er laget for hørselshemmede, men «captions» brukes noen ganger på den samme måten som i USA.

Lenker du kan ha nytte av

Medvirkende

Morten Tollefsen

Innspill til artikkelen

Logg inn med Nav SSO for å gi innspill til artikkelen

Logg inn med Nav SSO