Digital lydredigering på computeren –
grundlæggende begreber
Lyd er
trykforandringer i luftens molekyler
Frekvens, amplitude,
cyklus, bølgelængde og fase
Interferens
Lydstyrker – decibel
Om analog
lydoptagelse og gengivelse.
Om digital
lydoptagelse og gengivelse
Sample rate
Bit depth eller
resolutionSådan
gemmes lyden
MP3 format
Lyd er trykforandringer i luftens molekyler
Lyd er svingninger i luftens molekyler (eller i vands molekyler, eller fast
materiales molekyler). Svingninger i et materiale – f.eks. en stemmegaffel -
skubber til luftmolekylerne i nærheden og skaber et område med højt lufttryk
(dvs. luftmolekylerne er tæt sammenpresset), der forplanter sig videre og
skubber nye luftmolekyler osv.
Herunder ses, hvordan stemmegaflens svingninger har skabt områder med højt tryk
og områder med lavt tryk i det luftfyldte rør.

Lidt senere har lufttrykket forplantet sig væk fra lydkilden:

I vores ører findes en membran som dette lufttryk får til at
vibrere. Vibrationerne omsættes til nerveimpulser, der sendes videre til
hjernen – vi hører.
Når man afbilder lyd grafisk gøres det typisk i form af en bølge, hvor området
med højt lufttryk gengives af bølgetoppen, området med lavt tryk af bølgedalen,
og områder med normalt tryk befinder sig på midterlinien:

Frekvens, amplitude, cyklus, bølgelængde og fase
Højden fra en bølgetop til en bølgedal kaldes amplitude –
den afgør hvor kraftig lyden er. En cyklus er den tid det tager fra et punkt på
bølgen, gennem alle amplitudeforandringer, til man igen når et tilsvarende
punkt på bølgen. Begyndelsen af en cyklus siges at have en fase på 0 grader,
slutningen på 360 grader. Længden der kan måles mellem to efterfølgende punkter
med samme fase kaldes for Bølgelængden, og måles i cm. Frekvensen
er antallet af cykler som bølgen gennemløber på ét sekund – dette måles i Hertz
(Hz), hvor 1 Hertz svarer til 1 cyklus i sekundet. Frekvensen bestemmer
tonehøjden – mennesket kan høre fra ca. 10 Hertz (en meget dyb tone) til ca.
22000 Hertz (22 KHz, en meget høj tone). Kammertonen er 440 Hertz.

Interferens
Når to lyde høres på samme tid så vil deres bølgemønstre glide sammen. Hvis man
afspiller to lyde med samme frekvens, samme fase og samme amplitude, så vil
bølgerne addere og resultere i den samme frekvens, men med dobbelt så stor
amplitude (dvs. lyden bliver dobbelt så kraftig) – dette kaldes konstruktiv
interferens.
Hvis man derimod afspiller to lyde med samme frekvens, men med
faserne 180 grader forskudt (såkaldt modfase), og samme amplitude, så
vil bølgerne udligne hinanden og resultere i stilhed – dette kaldes destruktiv
interferens. Det kan lyde utroligt, men det er faktisk tilfældet: At
man kan skabe stilhed ved at afspille to identiske lyde minimalt forskudt.
Princippet anvendes i såkaldt aktiv støjdæmpning, der bruges i meget støjende
omgivelser, f.eks. i helikoptre.
I praksis bliver bølgemønstre meget komplicerede – musik, tale, baggrundlyde
osv. består ikke af rene toner, men af et væld af toner på én gang. Allerede i
det øjeblik man adderer to ”rene” bølger med forskellig frekvens, opstår en
kompleks bølge:
Lydstyrker – decibel
Lydstyrke - hvor kraftig lyden er – udtrykkes normalt i decibel. Decibelskalaen
er en skala der udtrykker forholdet mellem styrken af to lydes styrke.
Hvis deres styrke er ens udtrykkes det som 0 dB. Den ene af de to lydstyrker er
altid en fastsat referencestyrke, som regel sat ved grænsen for, hvor lav en
lyd det menneskelige øre kan høre (hvor lavt et lufttryk). Dvs når man skal
måle lydstyrken på en lyd, så udtrykkes hvor mange gange stærkere lyden er, end
den lyd mennesker akkurat ikke kan høre. I computerlydprogrammer er
referencelyden dog ikke sat ved høregrænsen, men ved den største
amplitudehøjde, som programmet kan håndtere. 0 dB er her altså den kraftigste
lydstyrke, og lyde måles i forhold til, hvor meget svagere de er, end denne
maksimale styrke.
Decibelskalaen er en logaritmisk skala, der gør det nemmere at
arbejde med lydstyrker i det interval de praktisk forekommer. På kurven her er
x-aksen forholdet mellem de to lydstyrker (hvis de er ens er x=1, hvis den lyd
man måler er dobbelt så stærk som referencelyden, så er x=2, hvis den er halvt
så stærk, så er x = ½). På Y aksen kan lydstyrken aflæses i decibel. De med
grønt markerede punkter er gode at huske på, de gælder for forholdet mellem
alle lyde: Er lyden, der måles dobbelt så stærk som referenceværdien, så svarer
det til 3 dB, er den den samme svarer det til 0 db, er den halvt så stærk, så
svarer det til -3 dB. Er lyden 10 gange så stærk, så svarer det til 10 dB, er
den 10 gange svagere svarer det til -10 dB.
Om analog lydoptagelse og
gengivelse
Når man optager lyd analogt, f.eks. på båndoptager eller på en grammofonplade,
så omsættes lydbølgerne via en mikrofon til enten magnetiske feltstyrker på et
bånd, eller til et fysisk bølgemønster i en grammofonplade. Et tonehoved eller
en pickup kan omsætte bølgerne til stigende og faldende elektrisk spænding, der
forstærkes og sendes til en højttaler, som sætter luften i en bevægelse
svarende til den mikrofonen i sin tid registrerede.
Om digital lydoptagelse og
gengivelse
Sample rate
Digital lydoptagelse er væsensforskellig fra analog, idet den
digitale optagelse ikke kan lagre bølgerne fuldstændigt, men kun kan tage
prøver af amplituden med faste mellemrum. Prøverne kaldes for samples,
og den hyppighed de tages med kaldes for sample rate. På figuren her ses
øverst en lydbølge, hvor de blå punkter, der står med samme vandrette afstand
(altså er der lige lang tid imellem dem), repræsenterer de tidspunkter, hvor
der gemmes en sample. Den nederste figur viser den bølge som en computer
vil kunne danne ud fra de gemte samples af bølgen ovenfor. Bølgen ser
lidt takket ud, og vil også lyde derefter. For at få en bølge, der kommer så
tæt på originalen som muligt, så er det nødvendigt at have en høj sample rate
– dvs. at måle bølgen meget ofte. Jo højere frekvenser man ønsker at kunne
gengive, desto højere sample rate må man have. Forholdet imellem sample rate
og den opnåelige frekvens er simpelt, og kaldes for Nyquists teorem: Det
er nødvendigt at have en sample rate på mindst det dobbelte af den
ønskede højeste frekvens for at kunne gengive denne uden kvalitetstab. Da
mennesket kan høre lyde indtil ca. 22050 Hz (22050 svingninger i sekundet), må
en lydoptagelse i optimal kvalitet altså have mindst 44100 samples i sekundet.
Dette er netop den sample rate som CD’er indspilles og afspilles med.
Bit depth eller resolution
For hver sample gemmer en digital lyd et tal, der angiver bølgens
amplitude (højde over eller under grundlinien) på måletidspunktet. Når en
computer skal gemme et tal skal den bruge mere hukommelse jo mere præcist den
skal kunne gemme dette tal. Dvs. at jo mere præcist en samples position i
forhold til grundlinien skal kunne gemmes, desto mere hukommelse (harddisk-
eller CDROM-plads når der gemmes permanent) skal computeren bruge. Hvor præcist
en sample skal gemmes angives som lydens bit depth, bit rate eller resolution
(opløsning på dansk).
Til højre ses den samme lyd, med samme sample rate (der
er lige mange målepunkter vandret), men med to forskellige bit depths:
Den øverste har 26 mulige værdier for amplituden, den nederste kun 7. I den
nederste ses det tydeligt, at nogle af målepunkternes værdi ikke kan rammes
præcist og bølgens form ændres derfor, hvorved lyden forringes.
Computerlydprogrammer
(og lydkort) arbejder typisk med tre forskellige bit depths: 8 bit, 16
bit eller 32 bit. En bit er en informationsenhed i computeren, der kan være
enten 0 eller 1. Når man har 8 bits til rådighed kan man repræsentere 28
to i ottende potens, altså 2x2x2x2x2x2x2x2), eller 256 forskellige værdier. 16
bit svarer til 65536 (hvis man ønsker at bruge negative tal, så er det fra
-32768 til +32767), og 32 bit svarer til 4294967296. I praksis gemmer man som
regel 8 bit som heltalsværdier (altså tal uden decimaler) mellem 0 og 255 (ikke
1 og 256), hvor 128 er midterlinien. 16 bit værdier gemmes som heltalsværdier
mellem -32768 og +32767, hvor 0 er midterlinien. 32 bit værdier gemmes som
decimaltalsværdier mellem -32768 og +32767, hvor 0 er midterlinien.
Hvis dit lydkort kan arbejde med 32 bits opløsning, så anbefales det, at al
redigering foretages ved denne opløsning – det giver en langt større præcision.
Da mange lydkort ikke kan afspille 32 bits lyde, så skal lyden oftest
konverteres til 16 bit før den distribueres. Det gælder i særdeleshed før den
gemmes i en fil, der skal brændes til en lyd-CD – da skal formatet være
44100 sample rate, 16 bit, stereo eller mono.
Sådan gemmes lyden
Hvis
man gemmer en lyd af 1 minuts varighed med en sample rate på 44100, med
en bit depth på 16 bit, så når man frem til tallene til højre. Dette
gælder for mono – ved stereo vil datamængden være den dobbelte, og ved 32 bit
igen det dobbelte (dvs. 20 megabytes i minuttet ved 44100 samples, 32 bit
stereo).
Computeren kan gemme lyd på mange forskellige måder, men grundlæggende har man
kun brug for ganske få formater. Standardfilformatet, med filtypebetegnelsen
.WAV, er Windows PCM - alle de af lydkortet understøttede sample rates og
opløsninger kan gemmes i dette format. Hvis man gemmer med 44100 i sample rate
og med en opløsning på 16 bit, så vil alle computere med lydkort kunne afspille
dem.
Dataene gemmes i filen sample for sample, dvs først er gemt et
tal, der angiver amplituden for den første sample (og derpå, hvis det er
stereo, den anden kanals amplitude), dernæst følger amplituden for den anden sample
osv. Allerførst i filen ligger en såkaldt header, der angiver sample rate,
bit depth, antal kanaler og antal samples. Her ses 23 samples af
en lyd i mono, med en bitrate på 8:


En bølge som ovenstående, med afmærkninger af hver sample som en firkant,
ville se ud som til højre. Den vil være for kort til at nå at blive hørt – 23 samples
med 6000 samples pr sekus svarer til 0,0038 sekund
Det er meget uhensigtsmæssigt at sende WAV filer via internettet pga. deres
voldsomme størrelse. For at kunne sende dem, så kan det være nødvendigt at
reducere deres størrelse. Størrelsen reduceres i første trin ved at gemme med
lige præcis den maksimale kvalitet som lyden skal gengives i – til FM
tale-radio vil det sige 32000 i sample rate (FM radio sender ikke
frekvenser over 16000 Hz, så jævnfør Nyquists teorem skal sample raten være
32000), 16 bit, mono – dette vil resultere i, at hvert minut fylder 3,66 Mb.
Mange mailsystemer har en grænse på vedhæftningers størrelse på omkring 5
megabytes. Hvis man inden man sender lyden pakker den med et standard
pakkeprogram som man sikrer sig at modtageren kan udpakke, f.eks. zip format,
så kan størrelsen på filen reduceres betragteligt (50-90%), uden noget som
helst tab af kvalitet i lyden. For at reducere størrelsen yderligere, kan det
være nødvendigt, før zip-ningen, at komprimere lyden til MP3 format.
MP3 format
Mp3 formatet er et af flere lydkompressionsformater, der fungerer ved at
analysere lydfilen, og skære lyde fra, der ikke høres af øret. Den metode som
lyden bearbejdes efter kaldes psykoakustik. Hvor meget filen komprimeres
afgøres bl.a. af bit raten. Hvis man ikke lytter opmærksomt efter, så
hører man ved taleoptagelser sjældent, at det ikke er en original ukomprimeret
lyd, når mp3 filen er gemt med en bit rate på 128 kbit (128000 bits i
sekundet, 64000 pr. stereokanal – kun 9% af CD-lydens 705600 pr. kanal).
I stedet for at gemme filen med en konstant bit rate kan man også vælge
at anvende variabel bit rate. Her fastsætter man et overordnet
kvalitetsniveau, og filen gemmes så med forskellig bit rate forskellige
steder i lyden: Når kvalitetskravet kan opretholdes ved en lav bit rate nedsættes
denne, når der kræves en høj bit rate sættes den op.
MP3 formatet er et såkaldt lossy format, hvilket vil sige, at der reelt
tabes information ved at gemme i formatet. Man bør ikke redigere i en MP3 fil.
At lave en MP3 fil af en MP3 fil kan sammenlignes med at lave en fotokopi af en
fotokopi – kvaliteten forringes tydeligt med hver kopi.