måndag 25 november 2013

Namn på nyfödda, engelsk version

Jag testade även att göra en engelsk version av Tableau-visualiseringen av nyföddas namn. Dessutom utökade jag den lite grann, genom att komplettera med ett stapeldiagram. Jag är inte helt säker på resultatet. Många Tableau-visualiseringar lider av att skaparen vill för mycket och det blir rörigt. Kanske blir det samma sak här, men jag tycker ändå att det känns ganska balanserat att bara lägga till topp-10 för hela landet utan att man tappar fokus på huvudbudskapet. Döm själva.

tisdag 19 november 2013

Interaktiva visualiseringar med Tableau

Tableau är utan tvekan det bästa verktyget på marknaden för att skapa interaktiva visualiseringar. Det är oerhört flexibelt - till skillnad mot t.ex. Statistics eXplorer - och kräver inte några egentliga programmeringskunskaper. Jag håller på att lära mig Tableau för fullt och här följer en enkel tillämpning som jag slängt ihop som övning. Med data från SCB:s namnstatistik har jag gjort en interaktiv karta som visar de populäraste namnen på nyfödda per län, under åren 2009-2012. Gränssnittet är enkelt - bara att klicka för att filtrera och håll muspekaren över intressanta punkter i kartan för att få upp ytterligare information.

tisdag 5 november 2013

Mer cirkelresonemang i DN

I dagens DN rapporteras om att många svenskar betalar dyrt för dåliga elavtal, vilket illustreras av ett diagram över hur elförbrukning fördelas över olika hushåll i mellansverige.



Som vanligt har man valt att använda cirklar, vilket - som vanligt - är ett dåligt val för den här typen av data. Ögat har svårare att jämföra ytors storlekar än exempelvis höjden på staplar, vilket gör att diagrammets budskap blir svårare att tolka. För att kompensera har man lagt till värdesiffrorna i cirklarna, vilket också det är ett dåligt val. Siffervärden i diagram stör de visuella jämförelserna och tillför ingen ytterligare information. Vill man förmedla de exakta värdena är det generellt bättre att att lägga till en separat tabell.

Men cirklarna i sig är inte det enda problemet med diagrammet. Elförbrukningen är redovisade i intervall (kilowattimme/år), där klasserna dessutom inte är lika stora och den sista är ett öppet intervall (mer än 20 000). Ytorna representerar bara elförbrukningen per hushåll och är inte relaterade till den totala mängden. Intervallen tar visuell upp en stor del av diagrammet och riskerar att misstolkas som den samlade förbrukningen.

Om jag gör ett försök att göra om diagammet, skulle jag istället välja ett histogram, som lämpar sig betydligt bättre för att redovisa klassindelade data. Med den begränsade datatillgången man får från artikeln, måste jag göra några antaganden. Dels att förbrukningen är jämnt fördelad inom varje klass, dels hur fördelningen ser ut i den sista, öppna klassen, där jag antar att förbrukningen uppgår till max 30 000 kWh/år. Standardiserar vi diagrammet till att visa andelen per 1 000 kWh/år, får vi någonting i den här stilen:

 Andel av hushållen årsförbrukning av el


Relationen mellan mängden förbrukad el och andelen hushåll framgår tydligare och storleksjämförelserna underlättas. Med bättre data, helst andelen hushåll per 1000 kWh, skulle diagrammet kunna göras ännu bättre och den olyckliga ojämna klassindelningen skulle kunna undvikas. Igen - släpp cirklarna DN, de gör ingen glad!