torsdag 31 mars 2016

"När jag var liten var det alltid snö på vintern"

SMHI:s öppna data är faktiskt en fantastisk guldgruva för den inbitna statistiknörden. Inte minst ger den möjlighet att besvara den kanske viktigaste frågan av alla: var det verkligen mer snö när jag var liten? I följande Tableau-diagram har jag tagit fram snödjupsdata per vintermånad från ett antal mätstationer runt om i landet, ända från 1950 (!). Det finns en hel del luckor i materialet, så det krävdes lite pusslande för att få ihop någorlunda heltäckande tidsserier för varje landsända. Genom att utgå från användarens födelseår, kan man lätt omvandla data till att visualiseras för varje vinter från den första till elvaårsåldern. Upp till bevis! Var din barndoms vintrar ständigt fyllda av gnistrande snötäcken eller var det kanske ändå så att det förekom en och annan grönslaskig halvårslång höst även då?
 

onsdag 9 september 2015

Den syriska diasporan

I dessa dagar finns det knappast något mer angeläget ämne att ta upp än den syriska flyktingkrisen. Antalet människor på flykt är ofattbart stort. Många har gjort försök att begripliggöra omfattningen, Hans Rosling inte minst. Utan jämförelser i övrigt drar jag mitt strå till stacken genom att göra ett eget försök.

Utifrån UNHCR:s data framträder en bild av ett land med över hälften av befolkningen på flykt. Ytdiagram är sällan den mest lyckade lösningen för att jämföra kategorier över tid. Eftersom nivån för varje kategori är beroende av nivån på kategorierna nedanför, blir det svårt att avläsa vad förändringar beror på. Men som alltid vid diagramkonstruktion finns det inga absoluta rätt eller fel.

Med två tydliga huvudkategorier - syrier på flykt eller fortfarande kvar hemma - fungerar det speglade ytdiagrammet bra. Över tid framträder förskjutningen från den arabiska vårens inledning 2011 fram till dagens situation (statistiken sträcker sig till år 2014), där en allt större del av Syriens befolkning tvingats på flykt.

Var befann sig Syriens befolkning år 2011-2014?



Av en befolkning på drygt 20 miljoner människor hade år 2014 mer än hälften - över 11,5 miljoner - drivits bort från sina hem. Att kalla det en flyktingkatastrof är knappast överord, men det är inte en flyktingkatastrof som drabbar Europa i första hand. Den allra största andelen är flyktingar i sitt eget land. 7,6 miljoner av dem befinner sig i ett Syrien sönderslitet av krig, med sämsta tänkbara förutsättningar för att ta hand om dem. Resten - i stort sett - har flytt till grannländerna. Turkiet, Libanon, Jordanien, Irak, Egypten, Libyen och Armenien har tagit emot 3,7 miljoner flyktingar.

Den blåa ytan i diagrammet visar antalet flyktingar till EU-länderna. Den är så liten att den knappt syns. I slutet av 2014 utgjorde de omkring 123 000 personer, mindre än en procent de totala flyktingströmmarna. Sverige och Tyskland tar visserligen hand om merparten av dessa, men jämfört med Syriens grannländer är det en marginell belastning.

Ser man till hur många flyktingarna är i förhållande till ländernas storlek, är det frågan om rejäla skillnader. Antalet flyktingar per tusen invånare i mottagarländerna - och här fungerar ett vanligt stapeldiagram bäst - visar att i Tyskland har man tagit emot en halv flykting per tusen invånare. I Sverige, som tagit emot något färre flyktingar än Tyskland totalt, men som är ett mycket mindre land, är motsvarande antal 3,5 flyktingar per tusen invånare.

Antal syriska flyktingar per tusen invånare i de största mottagarländerna

Siffrorna bleknar dock i jämförelse med Syriens grannländer. Turkiet är ett stort land och trots stora flyktingvolymer landar antalet på tjugo flyktingar per tusen invånare. Men Libanon, med en befolkning mindre än Sveriges, har tagit emot 1,1 miljoner syrier, vilket innebär hela 200 flyktingar på tusen invånare - en syrisk flykting per fem libaneser. Detta i ett land med en bruttonationalprodukt per capita som bara är en sjättedel av Sveriges.
 
Det är alltså ingen tvekan om att det rör sig om enorma mängder människor på flykt. Ett helt land håller på att tömmas på invånare. Och det är grannländerna som får ta nästan hela ansvaret för flyktingströmmarna, inte Europa. Är lösningen då verkligen - som föreslås från brunfärgat håll - att lägga ytterligare bördor på dem genom "hjälp på plats" och helt eliminera den i sammanhanget marginella flyktingströmmen till EU? Eller finns det utrymme att ta ytterligare lite ansvar för katastrofen bland Europas länder? Vi har trots allt långt, långt kvar innan vi ens kommer i närheten av grannländernas nivåer.
 


måndag 29 juni 2015

Tips - Sherlock Holmes i diagramform

The Guardian presenterar Sherlock Holmes i form av en serie diagram. Metodologiskt kan man ha vissa invändningar mot en del av presentationsformerna, men överlag är det en hysteriskt underhållande bildserie, så jag överser glatt med sånt jag normalt skulle ha gnällt över.

tisdag 2 juni 2015

Tips - Andra världskrigets dödsoffer

Ett snabbt tips om en mycket välgjord visualisering av hur fruktansvärt många dödsoffer andra världskriget krävde. Rent tekniskt är presentationen enkel, i stort sett bara animerade stapel- och ytdiagram, men den levererar en mycket tydlig och gripande berättelse. Ett ypperligt exempel på statistical storytelling när den är som bäst.

onsdag 27 maj 2015

Stora och små flygplan

Som bekant har i dagarna den stora flygövningen ACE (Arctic Challenge Exercise) dragit igång i norra Skandinavien, med 3 600 personer och 115 flygplan från nio länder. En "gigantisk" flygövning enligt media. Strax efter att den dragit igång svarade Ryssland med en egen beredskapsövning, omfattande 12 000 personer och 250 flygplan. Alltså ännu mer gigantisk än ACE.

SVT gör ett tappert försök att illustrera storleksförhållandena, men snubblar redan i startgroparna. Att 250 är mer än dubbelt så mycket som 115 tror jag de flesta känner till, men det blir inte tydligare av att göra flygplanssymbolerna dubbelt så stora.


Ser man till ytan som de båda grupperna tar upp, verkar antalet ryska plan vara snarare fjorton gånger fler. Att man vill göra en poäng av att den ryska flygövningen är större än den västeuropeiska må vara hänt, men om informationsgrafiken ska vara korrekt, skulle den snarare se ut så här:




Fortfarande fler ryska plan, men nu med en riktig storleksjämförelse. Gissningsvis antog SVT:s grafiker att det var antalet ikoner som var det viktiga och att skalan inte spelar någon roll. Men visual cue i det här fallet är lika mycket den faktiska ytan som antalet symboler, kanske till och med ännu mer. Hjärnans system ett går direkt på ytjämförelsen, snarare än att via system två räkna flygplanen och jämföra antalet.

torsdag 21 maj 2015

Siffror med en nypa salt

En nyhet som nyligen dök upp handlar om att Livsmedelsverket anser att svenskarnas saltintag är alldeles för högt. Myndigheten menar att överkonsumtionen orsakar 1 700 dödsfall per år och vill halvera intaget, från 11 gram per person och dag till 5-6 gram istället. Det tänkta orsakssambandet är att högt saltintag ger upphov till högre blodtryck, vilket i sin tur är en riskfaktor för olika hjärt-/kärlsjukdomar. Den svenska saltkonsumtion ligger också - enligt Livsmedelsverket - högt i förhållande till andra länder.

Medicin och nutrition är långt ifrån mitt specialområde, men jag kan en del om att hantera siffror. Det här var tillräckligt för att väcka min nyfikenhet, så efter en del letande fick jag ihop lite data kring frågan. I stort sett alla datauppsättningar innehåller en intressant historia, det gäller bara att hitta den.

Hur förhåller sig den svenska saltkonsumtion till andra europeiska länder? Ett enkelt knoppdiagram - en underutnyttjad men väldigt användbar variant på traditionella stapeldiagram - avslöjar vår position.

Genomsnittligt saltintag per person och dag i europeiska länder

Precis som Livsmedelsverket säger, så ligger Sverige högt upp bland saltätarna. Vi är inte de största konsumenterna i Europa, men en närmare granskning visar att det knappt är några jämförbara länder som slår oss. Våra nordiska grannländer har ett betydligt lägre saltintag. Faktum är att i stort sett alla västeuropeiska länder ligger under oss.

Och hur var det då med kopplingen till hjärt-/kärlsjukdomar? Utan att göra anspråk på att vara någon slags vetenskaplig studie, så kan i alla fall de här två variablerna korsas mot varandra i ett vanligt punktdiagram, vilket är det tydligaste sättet när två tvärsnittsdata ska jämföras. Antal döda per 100.000 personer i hjärt- & kärlsjukdomar, jämförs mot samma data som i knoppdiagrammet ovan.

Dödlighet i hjärt-/kärlsjukdomar och genomsnittligt saltintag i europeiska länder



Genast blir siffrorna mer intressanta. Till att börja med är det direkta sambandet på ländernivå mellan saltintag och dödlighet i hjärt-/kärlsjukdomar svag. Förklaringsgraden är ca 7 procent (dvs. variationen i dödlighet mellan länderna kan bara förklaras till 7 procent av variationen i saltintag). Men ganska snart framträder istället regionala mönster. Nästan alla västeuropeiska länder ligger tätt samlande kring ett genomsnittligt saltintag mellan sju och nio gram och med en dödlighet i hjärt-/kärlsjukdomar under 200 per 100.000 personer. Sverige, tillsammans med Portugal, ligger som undantag med en betydligt högra saltkonsumtion, men med lika låg dödlighet.

De östeuropeiska länderna samlas grovt i två kategorier; dels norra Östeuropa med Baltikum, Polen och Slovakien, dels Centraleuropa med Tjeckien, Ungern, Rumänien och Bulgarien. Båda grupperna kännetecknas av relativt hög dödlighet i hjärt-/kärlsjukdomar, men norra Östeuropa har en saltkonsumtion i nivå med Västeuropa, medan Centraleuropas saltintag ligger på betydligt högre nivå - t.o.m. högre än i Sverige.

Turkiet och Cypern, med sina extremt höga respektive låga nivåer sticker ut som statistiska outliers. Här kan misstänkas konstigheter i data, snarare än faktiska skillnader (eller som min första chef på SCB en gång i tiden lärde mig: "hittar man något i intressant i statistiken är det förmodligen något fel").

Det tycks alltså som en geografisk - eller om man så vill kulturell eller historisk - faktor spelar in i hög grad. Högt saltintag är säkert en riskfaktor för hjärt-/kärlsjukdomar, men bara en av flera, vilket gör att variationen i saltkonsumtion inte alls slår igenom vid jämförelser mellan länder.

Enkla exempel på att intressanta historier kan hittas i all data - och att rätt visualiseringar kan lyfta fram dem.

Källa till saltintag per land är WHO-rapporten "Mapping salt reduction initiatives in the WHO European region" och till dödlighet WHO:s European Health for All database.

måndag 4 maj 2015

Två snabba från SCB

Jag hade egentligen inte tänkt klanka ner på just SCB så mycket, men nyligen damp två nya framställningar ner i mitt facebook-flöde, som jag inte kan låta bli att kommentera. Igen handlar det om att Sveriges officiella statistikmyndighet inte kan hålla sig till best practice för diagramframställning.

Det första kanske möjligen kan ursäktas med att det mer är en infographic än ett diagram, men samma principer för att undvika förvirring gäller ändå. Det visar på antalet sysselsatta inom industrin år 1980 och 2014, följaktligen med budskapet "allt färre jobbar inom industrin". Diagrammet innehåller alltså exakt två datapunkter.

 
För att skoja till det lite har man gjort de två staplarna i form av skorstenar till en fabriksbyggnad. Här ligger också problemet. Vid stapeldiagram är det staplarnas längd som är visual cue och som ska jämföras mot varandra. Därför är det exempelvis extra viktigt att man aldrig kapar y-axeln. Längden på staplarna utgår från baslinjen vid y=0. Men här har man alltså lagt in en stiliserad fabriksbyggnad för att lätta upp framställningen, med följden att staplarna (dvs. skorstenarna) istället ser ut att börja vid y=300 (jag utgår från att man avser 300 000, även om man inte skriver ut att det är tusental någonstans i diagrammet). Staplarnas höjd ser därmed ut att vara 631 respektive 261. Detta innebär att den visuella tolkningen blir att minskningen av industrisysselsättningen ser ut att vara närmare 60 procent, istället för det korrekta 40 procent.
 
Det andra exemplet handlar om nyregistreringar av fordon, där Trafikanalys är statistikansvarig myndighet och (tror jag) SCB producerar statistiken på uppdrag. Här jämförs direktimporten och nyregistreringarna mellan åren 2014 och 2015 i en blandning av ett stapel- och ytdiagram.
 
 
Och redan där ligger det första felet. Det är en - tyvärr - inte helt ovanlig metod när man vill särskilja två olika serier. Men som jag visat i tidigare bloggposter finns det alltid skäl till varför man väljer den ena eller den andra diagramtypen. Vissa är bättre än andra, beroende på sammanhang. Generellt är linjer att föredra när det är tidsserier som ska jämföras, medan staplar passa bäst för att jämföra kategorier. Ytdiagram är sällan lyckade över huvudtaget, eftersom det snabbt blir svårt att jämföra storleken på de staplade ytorna när det är många kategorier med.
 
Här har man krånglat till det för sig genom att mixa båda typerna, i ett försök att särskilja de båda åren. Det blir inte bra. Välj en diagramtyp och håll dig till den. På det här sättet försvåras bara jämförelserna mellan de båda åren. Valet av diagramtyp styrs av andra saker än att skilja olika serier åt. Där är färger eller olika etiketter bättre.
 
Färger har dessutom redan använts här, så det finns inget behov av ytterligare åtskiljande. Möjligen kan man ha synpunkter på valet av färger, vilket inte direkt underlättar för läsare (särskilt inte för någon med viss färgblindhet, som jag).
 
Slutligen är också etiketterna på x-axeln märkliga. Varje månad har märkts med år 2015, även om det helt uppenbart är både år 2014 och 2015 som jämförs. Månadsnummer istället för månadens namn i klartext är dessutom bara en extra förvirring som ytterst lätt kan åtgärdas och underlätta betydligt vid tolkningen.