måndag 10 februari 2014

Speglade linjediagram

Häromdagen skrev Robert Kosara, en av de ledande rösterna inom informationsvisualisering, ett inlägg på sin blogg EagerEyes om s.k. speglade linjediagram. Detta är alltså linjediagram som visar utvecklingen över tid för en variabel som bara kan anta två värden som definitionsmässigt måste summera till 100 procent; ja eller nej, svart eller vitt, män eller kvinnor osv. De två linjerna blir därmed av nödvändighet inversen av varandra - är andelen ja 30 procent, måste andelen nej vara 70 procent, 20 procent svart ger alltid 80 procent vitt.

Robert Kosara är kritisk till den här typen av diagram. Den andra linjen tillför per definition inga ytterligare data - är värdet 40 procent för den ena linjen, måste den andra bli 60 procent. Båda linjerna speglar alltid varandra. Hans argument är att en andra linje bara bidrar till chart junk i diagrammet - utgör den inte datapunkter, ska den inte vara med. Snarare försvårar den läsningen av diagrammet. Dessutom antyder den en stark negativ korrelation mellan serierna, när de i själva verket bara är resultatet av en defintionsmässig nödvändighet.

Som av en händelse dök just ett sådant diagram upp i söndagens DN (Männen tar ut allt fler dagar), som beskriver hur andelen av föräldrapenningen som tas ut av män respektive kvinnor från mitten av sjuttiotalet fram tills idag.


Alternativet - om man går på Kosaras linje - skulle vara att istället bara visa en linje. Budskapet i artikeln är att männens andel av föräldrapenningen stadigt har ökat, men att det fortfarande är en bra bit kvar till en helt jämlik fördelning. Alltså är det mest intressant att visa hur männens andel har utvecklats. Utifrån en kommentar till Kosaras blogginlägg kan det också vara vettigt att lägga in en markering av 50-procentsnivån i diagrammet, vilket skulle ange en helt jämn fördelning av föräldrapenningsuttaget. I ursprungsdiagrammet skulle motsvarande fördelning visas när de två linjerna korsas - fast då med dubbelt så många datapunkter. Ett omgjort diagram skulle alltså se ut ungefär så här:


Fokus läggs i betydligt högre grad på hur männens andel har utvecklats. Samtidigt tappar man möjligheten att på ett enkelt sätt bedöma hur stort gapet är mellan männens och kvinnornas andel. Men istället blir det betydligt lättare att se hur stort gapet är till en helt jämn fördelning. Det är trots allt bara på den nivån kurvorna kan mötas. Och - ännu viktigare - man luras dessutom inte att analysera utvecklingen av de båda kurvorna var för sig. En förändring i den ena följs med nödvändighet av motsvarande inverterade förändring i den andra. Samma datapunkt skulle annars vara duplicerad utan att tillföra ytterligare information.

Även om det spontana intrycket är att det kan vara intressant med två kurvor - en för män och en för kvinnor - tycker jag ändå att de metodmässiga argumenten väger över. Diagrammet gör sig helt enkel bättre utan speglade linjer.

onsdag 5 februari 2014

Svenska statsministrar

Inspirerad av Ben Jones, som på sin blogg DataRemixed gjort ett Gantt-diagram över amerikanska presidenter, testade jag att göra motsvarande för svenska statsministrar. Diagrammet är gjort i Tableau och blev en intressant övning i att göra Gantt-diagram, vilket jag inte ägnat mig åt så mycket tidigare. Tableau har bra funktionalitet för detta och efter bara lite famlande kunde jag åstadkomma något som faktiskt ser helt OK ut. De gråa staplarna är respektive statsminster hela levnadsperiod, medan de partifärgade anger ämbetsperioden.


Själva resultatet i sig var också ganska intressant. Framför allt är det slående hur korta regeringsperioderna var innan Socialdemokraterna inledde sin långa sejour av närapå oavbrutet maktinnehav. Tage Erlanders extremt långvariga ämbetsperiod är också unik och faktiskt sticker även Göran Persson ut med den näst längsta sammanhängande perioden.

De väldigt korta perioderna under det tidiga 1900-talet är också tydliga, en del så korta som tre månader (Christian Lundeberg 1905). Dessutom - under några år i 1900-talets början var så många som nitton (!) blivande, sittande eller före detta statsministrar i livet samtidigt!

torsdag 19 december 2013

Grundläggande visualiseringsteori, del 1: Visuell hierarki

Det här är den första av (förhoppningsvis) flera bloggposter som går in lite mer på djupet kring de teoretiska grunderna för informationsvisualisering. Jag inleder med en av de viktigaste forskningsinsatserna på området – Clevelands hierarki över grafiska element.

William S. Cleveland skrev 1985 tillsammans med Robert McGill uppsatsen Graphical Perception and Graphical Methods for Analyzing Scientific Data , där han för första gången fastslår en rangordning över vilka typer av grafiska metoder för att visualisera data som är effektivast.

När man konstruerar diagram, kodas numerisk information genom storlek, position, form och färg. När man tittar på diagrammet, avkodas informationen visuellt av synsystemet. Den grafiska framställningen är bara lyckad om den avkodningen är effektiv. Den visuella avkodningen handlar om det som på engelska benämns "preattentive vision", dvs det omedvetna, omedelbara mottagandet av information som görs utan någon uppenbar mental ansträngning. Den som är bekant med Daniel Kahneman känner igen det som system 1. Man genomför visserligen också medveten avkodning, genom att t.ex. läsa av skalor och etiketter (Kahnemans system 2), men diagrammens styrka jämfört med tabeller kommer från vår system 1-förmåga att utläsa mönster och jämföra storlekar.

Cleveland och McGill kategoriserade tio olika sätt att visuellt koda information; vinkel, yta, färgskala, färgintensitet, färgtäthet (andel svart), längd, lägen på samma skala, lägen på flera identiska skalor, lutning och volym. Dessa kategorier utgör grunden för i stort sett alla typer av diagram som kan konstrueras.

Kontrollerade experiment genomfördes sen för att studera hur effektiva respektive grafisk typ var för att avkoda information. Försökspersonerna fick försöka utläsa hur stora de procentuella skillnaderna var mellan olika värden kodade med samma grafiska element. Exempelvis fick de se fyra olika vinklar (A-D) och skulle sedan avgöra hur stor andel av vinkel A som vinkel B, C respektive D utgjorde. Försöken upprepades för alla tio olika typer av grafiska element. Genom att jämföra det uppskattade värdet mot det sanna, kunde absolutskillnaden summeras till bedömningsfelet för varje grafisk typ.

Ju större bedömningsfel, desto sämre blir alltså det grafiska elementet på att förmedla information på ett korrekt sätt. Genom att rangordna elementen efter hur mycket (eller lite) fel försökspersonerna gjorde vid försöken, fick man fram en hierarki över olika metoder, graderade från bästa informationsöverföring till sämsta.


Mest effektivt som informationsöverföring är diagram som utnyttjar lägen på en gemensam skala, t.ex. stapeldiagram, linjediagram och punktdiagram. Minst effektiv informationsöverföring får man vid användning av olika färger, t.ex. heatmaps eller tematiska kartor.

Vad betyder då det här för tillämpningen vid diagramkonstruktion? Jo, Clevelands och McGills resonemang är som följer - vid visuell kodning av information har man ofta flera olika valmöjligheter. Man bör då välja den grafiska metod som ligger så högt upp i hierarkin som möjligt. Det ökar exaktheten i avläsningen av mönster i informationen. Det innebär inte en exakt instruktion för hur man konstruerar diagram, men ger ett viktigt stöd i olika valsituationer.

Rent praktiskt innebär det till exempel att tårtdiagram (vinkel) i princip alltid är sämre än stapeldiagram (lägen på samma skala). Att delade stapeldiagram (längd) är sämre än grupperade stapeldiagram (lägen på samma skala). Att olika färger på en karta (färgskala) är sämre än nyanser av samma färg (färgintensitet). Att bubblor (yta) är sämre än staplar (lägen på samma skala). Och så vidare.

måndag 25 november 2013

Namn på nyfödda, engelsk version

Jag testade även att göra en engelsk version av Tableau-visualiseringen av nyföddas namn. Dessutom utökade jag den lite grann, genom att komplettera med ett stapeldiagram. Jag är inte helt säker på resultatet. Många Tableau-visualiseringar lider av att skaparen vill för mycket och det blir rörigt. Kanske blir det samma sak här, men jag tycker ändå att det känns ganska balanserat att bara lägga till topp-10 för hela landet utan att man tappar fokus på huvudbudskapet. Döm själva.

tisdag 19 november 2013

Interaktiva visualiseringar med Tableau

Tableau är utan tvekan det bästa verktyget på marknaden för att skapa interaktiva visualiseringar. Det är oerhört flexibelt - till skillnad mot t.ex. Statistics eXplorer - och kräver inte några egentliga programmeringskunskaper. Jag håller på att lära mig Tableau för fullt och här följer en enkel tillämpning som jag slängt ihop som övning. Med data från SCB:s namnstatistik har jag gjort en interaktiv karta som visar de populäraste namnen på nyfödda per län, under åren 2009-2012. Gränssnittet är enkelt - bara att klicka för att filtrera och håll muspekaren över intressanta punkter i kartan för att få upp ytterligare information.

tisdag 5 november 2013

Mer cirkelresonemang i DN

I dagens DN rapporteras om att många svenskar betalar dyrt för dåliga elavtal, vilket illustreras av ett diagram över hur elförbrukning fördelas över olika hushåll i mellansverige.Som vanligt har man valt att använda cirklar, vilket - som vanligt - är ett dåligt val för den här typen av data. Ögat har svårare att jämföra ytors storlekar än exempelvis höjden på staplar, vilket gör att diagrammets budskap blir svårare att tolka. För att kompensera har man lagt till värdesiffrorna i cirklarna, vilket också det är ett dåligt val. Siffervärden i diagram stör de visuella jämförelserna och tillför ingen ytterligare information. Vill man förmedla de exakta värdena är det generellt bättre att att lägga till en separat tabell.

Men cirklarna i sig är inte det enda problemet med diagrammet. Elförbrukningen är redovisade i intervall (kilowattimme/år), där klasserna dessutom inte är lika stora och den sista är ett öppet intervall (mer än 20 000). Ytorna representerar bara elförbrukningen per hushåll och är inte relaterade till den totala mängden. Intervallen tar visuell upp en stor del av diagrammet och riskerar att misstolkas som den samlade förbrukningen.

Om jag gör ett försök att göra om diagammet, skulle jag istället välja ett histogram, som lämpar sig betydligt bättre för att redovisa klassindelade data. Med den begränsade datatillgången man får från artikeln, måste jag göra några antaganden. Dels att förbrukningen är jämnt fördelad inom varje klass, dels hur fördelningen ser ut i den sista, öppna klassen, där jag antar att förbrukningen uppgår till max 30 000 kWh/år. Standardiserar vi diagrammet till att visa andelen per 1 000 kWh/år, får vi någonting i den här stilen:

 Andel av hushållen årsförbrukning av el


Relationen mellan mängden förbrukad el och andelen hushåll framgår tydligare och storleksjämförelserna underlättas. Med bättre data, helst andelen hushåll per 1000 kWh, skulle diagrammet kunna göras ännu bättre och den olyckliga ojämna klassindelningen skulle kunna undvikas. Igen - släpp cirklarna DN, de gör ingen glad!

måndag 9 september 2013

Form före funktion i DN:s nyhetsgrafik

Kickar igång den här bloggen med att dyka ner på tidningarnas mer eller mindre bristfälliga diagramhantering.

DN redovisar idag en undersökning om härskartekniker. Sedan några år tillbaka har DN infört en mer konsekvent profil i sin nyhetsgrafik. Dessvärre har man låtit formen tagit över före funktionen. I synnerhet är man förtjust i olika former av cirkeldiagram - en kärlek som inte är besvarad när det gäller tydlighet. Dagens exempel är dessutom extra olyckligt, då man valt att använda s.k. "racetrack"-diagram.


Tanken är säkert god - man vill visa svarens andel av hela utfallsrummet och visual cue är att läsa av vinkeln, precis som ett tårtdiagram. Problemet är bara att man genom att lägga svarsalternativen som koncentriska cirklar förvrider proportionerna. Svar med samma andel, t.ex. andelarna som anger att chef resp. kollega utsatt dem (66 procent), ger olika långa banor. Ögat läser i första hand av längden på cirklarna och först därefter vinkeln. I praktiken är det här bara enkla stapeldiagram som har böjts runt i cirklar och därigenom förvridits.

Det är inte många datapunkter här. Fem stapeldiagram med tre staplar var skulle lyfta fram budskapet både tydligare och mer korrekt och dessutom ta mindre plats. Det är faktiskt så pass enkelt att jag inte ens gör ett försök att förbättra själv.

Nej, DN. Släpp cirkeldiagrammen, både här och i andra sammanhang. De har sin plats i vissa sammanhang men det här är definitivt inte ett av dem.