Subjektiv upplevelse. Ljudet från en tryckluftsborr på tv uppfattas som högljutt även om det spelas upp på låg volym – för den som hört ljudet i verkligheten.
Bild: Johnér

Så tyglades reklamljudet

Ljudnivån på tv-reklamen har anklagats för att vara högre än de omgivande programmen. En ny digital ljudmätare har utvecklats för att rätta till problemet. Nu gäller det bara att vi också vill höra förändringen.

Publicerad

När kommersiell tv i slutet av 1980-talet gjorde entré i den svenska etern introducerades vi nordbor för ett i resten av världen välkänt fenomen – vrålstarka reklampauser. Sedan dess har tittare enträget beskyllt kanalerna för att vrida upp nivån inför varje reklamavbrott, och kanalerna har lika enträget dementerat att så skulle vara fallet – och de har faktiskt talat sanning. Problemet har till stor del bottnat i att de ljudnivåmätare som tv och radio hittills har använt inte på något sätt visar hur starkt det mänskliga örat upplever det utsända ljudet, utan bara den elektriska spänningen på ljudsignalen. Men med ny digital mätteknik ska de upplevda nivåhoppen snart vara historia.

– I framtiden kommer tittarna bara att behöva ställa in ljudnivån på tv:n en enda gång i början av kvällen. Sedan kan de växla mellan olika program och kanaler, och allt kommer att låta lika starkt, förutspår Florian Camerer, ljudingenjör vid Österreichischer Rundfunk.

Florian Camerer är också ordförande i Europeiska radio- och tv-unionens (EBU) avdelning P/LOUD, som har arbetat med att få fram den specifikation för ljudnivåer som europeiska programbolag är på väg att anta.

Den stora utmaningen i att göra en mätare som härmar örats sätt att uppleva ljudnivåer har inte främst legat på tekniksidan – algoritmen i sig är ganska enkel och möjligheterna har egentligen funnits sedan ljudtekniken blev digital.

– Svårigheten har varit att få alla aktörer, forskare, teknikchefer och elektroniktillverkare, att enas kring hur all den kunskap vi har om människans öra ska användas. När vi nu har lyckats med det, står vi faktiskt inför en revolution vad gäller ljudnivåer i tv och radio, säger Florian Camerer.

Den äldre typ av mätare som radio- och tv-branschen använt för elektriska ljudsignaler sedan 1970-talet kallas toppvoltmeter, på engelska program peak meter, förkortat PPM. Det är egentligen inte mycket annat än en voltmeter som visar signalens elektriska spänning på någon form av logaritmisk skala.

Mätaren säger egentligen inte mycket om hur starkt en lyssnare upplever ljudet – det är ljudmixarens uppgift att med hjälp av sina öron och med känsla och finess balansera olika innehåll så att det låter lagom starkt och inte bjuder på överraskningar som får tittaren att hoppa till. I det flesta fall lyckas ljudmixaren alldeles utmärkt med detta – problemen uppstår när inslag och reklam sänds ut genom automatik, eller när konkurrerande tv- och radiokanaler antar olika filosofier för hur deras ljud ska processas innan utsändning. För även om alla följer samma specifikation och styr ut nivåtopparna i materialet lika starkt på samma typ av toppvoltmätare, så kan ljudnivån upplevas som väldigt varierande beroende på ljudmaterialets art.

Förutom den spänningsnivå som visas på toppvoltmetern finns en rad andra faktorer som påverkar hur starkt ett ljud upplevs. Den första är dynamiken, det vill säga hur stor skillnaden är mellan ljudmaterialets starkaste och svagaste partier. Låt säga att man valt ut tre sekunder av ett stycke klassisk musik (som i allmänhet har stor dynamik) som inleds med ett kort dundrande forte fortissimo. Resten av stycket består sedan av ett svagt pianissimo. Utsändningsnivån måste då justeras så att det starkaste partiet inte når över det högsta tillåtna värdet på toppvoltmetern. Den lugna fortsättningen på stycket slår sedan inte i närheten av toppnivån och när örat över tid summerar den korta nivåtoppen med det svagare partiet kommer det inte att uppfatta ljudmaterialet som särskilt starkt.

Om vi i stället spelar tre sekunder av modern populärmusik blir det annorlunda. Denna, och i synnerhet dansmusik, har oftast mycket liten dynamik; det är starkt hela tiden. Sänder vi ut detta material på högsta tillåtna nivå kommer hörselsinnet att stimuleras konstant under det tre sekunder långa tidsfönstret, och lyssnaren kommer att uppleva ljudmaterialet som mycket starkt och påträngande i jämförelse med det klassiska stycket. I båda fallen har signalen sänts ut enligt gällande tekniska rekommendationer, men med helt olika upplevd ljudnivå.

Den andra faktorn är energitätheten, vilken definieras som den tidsmässiga uppdelningen mellan de svaga och starka partierna. En person som till och från låter enstaka ord i sitt tal blir nivåstarka, men i övrigt talar svagt och gör en och annan paus, talar med låg energitäthet. En person som hela tiden talar starkt, med något enstaka svagt mummel och få och korta pauser, talar med hög energitäthet. Båda personerna kan dock tala med lika stor dynamik, alltså med lika stor skillnad mellan den starkaste och svagaste nivå de orsakar.

Jämför man tal med populärmusik har tal betydligt lägre energitäthet, eftersom musiken inte bjuder på några tysta partier alls, utan är stark största delen av tiden. Den totala stimulansen av hörselsinnet blir över tid högre med ett energitätt material, och därför uppfattar vi det som starkare, trots att dess nivåtoppar slår lika högt på mätaren som ljud med lägre energitäthet.

Den tredje faktorn är spektralbredden, det vill säga vilken spridning i frekvens som tonerna i ljudmaterialet har. En inspelning av en ensam klarinett, som spelar en hög ton, kan upplevas som betydligt svagare än en symfoniorkester, som kan spela en mängd toner från djupaste bas till högsta diskant på samma gång. Detta alltså trots att signalerna från klarinett respektive full orkester justeras så att de slår lika högt på toppvoltmetern.

En fjärde faktor är energifördelningen. Det mänskliga örat uppfattar nämligen ljud mellan 3 000 och 5 000 Hertz som extra starka, medan de högsta diskanttonerna och framför allt låga bastoner uppfattas svagare. Fenomenet upptäcktes på 1930-talet, och hittills har evolutionsforskarna inte riktigt lyckats komma överens om varför frekvensgången ser ut exakt som den gör. Konsekvensen blir i alla fall att skrikande barn, ettriga ringklockor och gälla röster upplevs som starkare än ljud som har sin intensitet koncentrerad till den lägsta basen eller högsta diskanten.

Stor dynamik låter mindre …
Det här ljudklippet med tal har stor dynamik, det är periodvis starkt och slår upp till + 9 dBu, men är periodvis betydligt svagare. Energitätheten är låg – det är svagt och till och med tyst vissa perioder.

… än liten dynamik. Men dynamiskt tal …
Det här musikstycket har liten dynamik, alltså mycket liten skillnad mellan de starkaste och svagaste partierna. Energitätheten är hög – det är starkt hela tiden. Styrs det ut lika starkt som talet i exemplet till vänster upplevs det som mycket påträngande.

… kan komprimeras för att låta starkare
Samma ljudklipp med tal som i första figuren, efter att det har komprimerats. Dynamiken är borta och det är starkt hela tiden. Styrs det ut till samma elektriska nivå som det okomprimerade exemplet kommer detta att upplevas som betydligt starkare.

En sista faktor, vars påverkan dessvärre inte går att mäta ens med den mest avancerade utrustning, kallas ljudkällenivån. Det är ett rent psykologiskt fenomen, som bygger upp våra egna erfarenheter. Den som har gått förbi en tryckluftsborr i arbete på sin väg till jobbet ett par gånger kommer undermedvetet att förknippa den typen av ljud med hög ljudnivå. Om samma person senare presenteras för en inspelning av en tryckluftsborr kan den upplevas som mycket starkare än till exempel en porlande bäck – trots att de båda ljuden orsakar samma utslag på toppvoltmätaren.

Ljud som vanligtvis orsakar ett starkt ljudintryck upplevs alltså som starka även om de spelas upp på en helt behaglig nivå. Och efter 20 år med dånande reklamavbrott i svensk tv står en sak klar – tv-reklam kommer att ha en hög ljudkällenivå ett tag framöver, hur mycket ljudnivån på reklamblocket än sänks.

Ett stycke dialog i ett tv-program upplevs som om det hade betydligt lägre ljudnivå än ljudet av populärmusik. De faktorer som spelar in mest är musikens mycket begränsade dynamik samt dess höga energitäthet. Dialog som direkt följs av musik kan ge intrycket att musiken spelas upp dubbelt så starkt som talet, trots att de två orsakar samma utslag på toppvoltmetern. Redan i radio- och tv-reklamens barndom utnyttjades det här fenomenet av reklammakare som ville att deras reklam skulle låta starkare än allt annat. Tricket är en mycket noggrann nivåutjämning, på branschspråk kallad kompression. Ljudsignalen, exempelvis en speakerröst, skickas igenom en krets som blixtsnabbt sänker alla starka partier. Ut kommer en version som i det närmaste helt saknar nivåförändringar och därmed kan höjas så att den slår emot maxnivån hela tiden.

För att matcha den upplevda ljudnivån mellan olika programmaterial krävs alltså en annan typ av mätare. Mallen för den nya så kallade loudness-mätaren är framtagen på uppdrag av International telecommunication union, ITU, i Genève. En synnerligen empirisk metod användes för att fastställa den lämpligaste algoritmen. Lyssningstester utfördes på fem olika platser i världen på totalt 137 deltagare. Sammanlagt lyssnade de igenom 336 olika ljudklipp av olika slag: musik, filmdialog, sport, lekprogram, speakerröster, reklam och ljudeffekter. Med en engelsk speakerröst som referens fick deltagarna justera ljudnivån på alla klipp så att de upplevdes som lika starka. Därmed fick varje ljudexempel ett värde på dess subjektiva ljudnivå i jämförelse med referensklippet.

F&F i din mejlbox!

Håll dig uppdaterad med F&F:s nyhetsbrev!

Beställ nyhetsbrev

De 336 ljudklippen kördes därefter igenom de olika förslag på beräkningsalgoritmer som hade kommit in från ett dussintal aktörer – elektronik- och mjukvarutillverkare, tv- och radiobolag samt branschorganisationer. Projektledaren för utvärderingen, Gilbert Soulodre vid McGill university i Kanada, lämnade dessutom in ett eget förslag. Algoritmernas utslag jämfördes med data från lyssningstesterna, med ett något överraskande resultat.

– Några av algoritmerna innehöll fantastiskt sofistikerade beräkningar baserade på all kunskap som finns om den mänskliga hörseln, men lustigt nog visade det sig att den enklaste och minst processorkrävande varianten stämde bäst överens med testgruppens upplevelser på majoriteten av alla ljudklipp. Och det var Soulodres eget förslag, berättar Florian Camerer.

Den mall som ITU fastställde grundades alltså på Soulodres idé.

På sin väg genom loudness-mätaren går signalen först genom ett filter som minskar nivån på bastonerna och ökar nivån på diskanttonerna. Syftet är att efterlikna den påverkan på frekvensgången som örat i kombination med huvudets klotform orsakar. När signalen är filtrerad mäts vågformens effektivvärde, vilket påverkas av signalens amplitud, frekvens på grundton och spektralbredd. Slutligen möter signalen själva hjärtat i loudness-mätaren, den så kallade integratorn. Denna mäter nivån tio gånger per sekund, summerar värdena och dividerar summan med antalet provtagningar under det tidsfönster som har valts.

Prenumerera på Forskning & Framsteg!

10 nummer om året och dagliga nyheter på webben med vetenskapligt grundad kunskap.

Beställ idag

Loudness-värdet presenteras som ett snitt av de mätningar som ingår i ett visst tidsintervall. Enligt EBU-rekommendationen ska loudness-värdet kunna visas i tre olika tidsfönster: momentant, korttid respektive hela programmet. I momentan- och korttidsvärdet får en direktsändande ljudtekniker en omedelbar indikation på hur starkt programljudet upplevs av lyssnaren. Programvärdet används för automatisk normalisering av hela förinspelade program och reklamavsnitt.

– Om man ska nämna en teknisk landvinning som har möjliggjort loudness-mätning, så är det digital signalbehandling och beräkning, säger Florian Camerer.

Riktigt gamla analoga mätarnålar kan ge en visuell vink om den upplevda ljudnivån i realtid. Men för att få fram ett pålitligt medelvärde för hela programinslag krävs kontinuerlig mätning och uträkning av snittnivån, och det är en ren kalkyleringsprocess som förstås skulle bli väldigt otymplig med analog teknik. Men Florian Camerer är noggrann med att påpeka att det är standardiseringen som är det största framsteget. En mätare vars syfte är att normalisera ljudnivåerna i världsetern blir inte användbar förrän det finns en standard som alla följer. Om några år kommer all tv och radio i Europa att mixas enligt EBU:s rekommendation.

– Så jag menar verkligen att tittaren bara kommer att behöva ställa in ljudnivån på tv:n en enda gång.

 Leif Thuresson är sändningschef på TV4, som sedan början av 2013 normaliserar alla program, inslag och reklamsnuttar enligt den nya rekommendationen.

– Jag tror de flesta har märkt att reklamen numera ligger betydligt mer i nivå med programljudet än för några år sedan. Sedan finns det förstås fortfarande tillfällen när det inte fungerar perfekt, och det gäller oftast när vi sänder dynamiska spelfilmer, säger han.

Filmens utsändningsnivå är baserad på dess totala loudnessvärde, med hög musik och explosioner inräknat. Så när en reklampaus hamnar mitt i ett av filmens lågmälda partier kan det bli ett nivåhopp.

– Alternativet skulle vara att inte tillåta någon dynamik alls i filmljudet, eller att lägga reklampausen mitt i actionscenerna, och det tror jag inte tittarna skulle uppskatta.

Okategoriserad

Upptäck F&F:s arkiv!

Se alla utgåvor