söndag 12 april 2015

Ankor och böcker hos SCB

Det här inlägget kan ses som ett tillägg till det förra avsnittet om grundläggande visualiseringsteori. Mer specifikt tar det upp ett specialfall av maximeringen av data-ink-ratio, nämligen fallet med ren utsmyckning i ett diagram. Bilder eller symboler som bara är prydnad och inte tillför någon ytterligare data eller ens utgör några som helst diagramelement. Tufte benämner de här tillskotten ducks (dvs. ankor). Ursprunget till termen är en byggnad i Flanders, New York, helt och hållet formad som en anka, som tidigare användes som butik för försäljning av just ankor och ägg. Poängen med jämförelsen var just fenomenet att hela strukturen i sig var dekoration, snarare än innehåll.

Ankor är rent diagramskräp och tillför ingen ytterligare data. Visualiseringar står och faller med innehållet och budskapet, inte grafiska utsmyckningar. Diagramskräp kan inte rädda visualiseringar som redan från början saknar innehåll, men de kan förstöra framställningar som annars är fullt funktionsdugliga.

Orsaken till att jag tar upp det här nu, är att bilden nedan dök upp i mitt facebookflöde. SCB producerar mängder med intressant data och sprider den med oftast bra grafik. Här snubblade man dock något. Omsättningen i bokhandeln över en tjugoårsperiod. Det viktigaste budskapet är att en halvering har skett under perioden; ett tydligt och intressant resultat, som enkelt och slagkraftig kan visualiseras med ett normalt linjediagram.


 
Varför väljer man då att lägga in en enorm anka i diagrammet i form av en bok? Är man rädd att läsaren ska glömma bort att det handlar om bokhandeln under den sekund det tar för blicken att vandra från rubriken till diagramytan? Det här är ett typexempel på diagramskräp; en stor dekoration rakt över ytan som tar upp mängder av grafik utan att tillföra någon som helst data. Det stör framställningen och försvårar tolkningen.
 
Nu är det här förstås ingen stor sak i sig, men det är så klart synd att SCB, som i kraft av att vara landets statistikmyndighet borde vara föregångare inom området, inte följer best practice för diagramproduktion. Ingen skugga över SCB i övrigt. Jag har själv jobbat på myndigheten under flera år och har till och med varit chef inom avdelningen där det här diagrammet har producerats. Men här råkade man ut för ett litet olycksfall i arbetet.

onsdag 1 april 2015

Grundläggande visualiseringsteori, del 2: Visa data framför allt

I det förra inlägget om grundläggande visualiseringsteori tittade vi på valet av diagramtyp. Vilken sort man väljer är inte bara en fråga om tycke och smak, utan vissa diagramtyper är faktiskt bättre än andra på att förmedla information. När vi nu har valt vilket slags diagram vi ska använda, kommer vi till dagens ämne; den mest grundläggande principen för all diagramframställning: visa data framför allt.

Detta kan låta nog så självklart, men är långt ifrån något som alltid tillämpas. Principen kan sägas ha fastslagits i den bok som får betraktas som standardverket inom visualiseringsteori - Edward Tuftes "The Visual Display of Quantitative Information". Där är den portalprincipen för all bra statistisk grafik: "Above all else show the data".

Vad innebär då detta i praktiken? Jo, så mycket som möjligt av det som ritas in i ett diagram ska presentera data. Allt annat ska - inom rimlighetens gränser - skalas bort. För att formalisera denna princip använder Tufte begreppet data-ink-ratio, vilket kan översättas som andelen av all trycksvärta (dvs. allt som ritas in i diagrammet) som används för att representera data. Denna kvot ska maximeras och komma så nära ett som möjligt. Med andra ord, nära nog allt som ritas in i diagrammet ska vara datapunkter. Alla delar i ett diagram ska finnas där av en orsak, och nästan alltid ska denna orsak vara att presentera data.

Det som följer av att alltid maximera data-ink-ratio är vidare två följdprinciper som handlar om att ta bort element i diagrammet. För det första, ta bort - åter igen, inom rimlighetens gräns - allt som inte är informationsbärande. Onödiga stödlinjer, ramar, ifyllda ytor, 3-D-effekter, rena dekorationer, osv. Dessa element brukar kallas för chart junk (diagramskräp). De distraherar läsare från budskapet och bidrar inte med information.

För den andra, ta bort även element som upprepar datapunkter, där information dubbleras. Det typiska fallet är där data redan har representerats av exempelvis en stapel. Då finns det inget behov av att även skriva ut siffran. Den ytterligare grafik som siffran innebär är visserligen databärande, men den tillför ingen ny information. Tvärtom kommer den bara distrahera läsaren och försvåra tolkningen av diagrammet. Finns det behov av att visa de exakta siffrorna, är det bättre att komplettera med en separat tabell.

De här principerna tillämpas på diagrammet när man konstruerar det. Revidera det sedan igen, och igen. Diagramkonstruktion är en iterativ process. För, som den franske författaren Antoine de Saint Exupéry skrev: "Det tycks som om perfektion uppnås inte när det inte finns mer att tillägga, utan när det inte finns mer att ta bort".

Vi tar ett exempel för att illustrera hur principerna kan tillämpas. Allra tydligast blir det när det handlar om att göra om ett diagram, snarare än att konstruera ett från grunden. Diagrammet nedan motsvarar vad som kan komma ut från ett kalkylprogram av en känd större mjukvarutillverkare, om inga särskilda ändringar görs.


Grötigt, svårläst och plottrigt. Vi börjar med att anpassa diagramtypen. Staplar är vårt basdiagram, men det passar bäst till att göra jämförelser mellan olika kategorier. När vi ska visa tidsserier är det linjer som är lämpligast. Alltså, byt från staplar till linjer.



Bättre, men fortfarande alldeles för många element som inte presenterar data. Om vi börjar bakifrån, så kan vi radera den grafik som dubblerar data. I det här fallet är siffrorna utskrivna vid varje datapunkt. Informationen är redan inkodad i linjens position, så siffervärdet tillför ingen ytterligare data, utan ligger bara i vägen när en läsare ska följa kurvan. Bort med dem!



Nu kan gå vidare med andra element som försvårar tolkningen. Stödlinjerna är nästan lika tjocka som datalinjerna och dominerar ritytan alldeles för mycket. De kan tunnas ut och samtidigt kompletteras med vertikala linjer, som underlättar läsningen i x-led.

Decimalerna på y-axelns skala är redundanta, eftersom det ändå bara är heltal. På samma sätt förenklas x-axelns skala genom att ta bort upprepningarna av årtalen för varje månad, och ersätta månadsnumren med klartext. Vi vänder dem också till horisontell position, så att läsaren slipper luta huvudet. Samma sak med y-axelns etikett.

Förklaringen till linjerna har också flyttats upp från en egen ruta till att ligga bredvid linjerna, något som alltid är att rekommendera vid just linjediagram. På så sätt slipper läsaren hoppa med blicken fram och tillbaka mellan linjer och förklaring.

Slutligen har också rubriken lyfts ut, ramen har tagits bort och diagrammet har förstorats till att fylla ut hela ritytan.


Arbetslöshet 2012-2013

 
Enkla åtgärder i linje med principerna. Visa data framför allt. Diagrammet blir tydligare, mer lättläst och det är data som dominerar.