Șapte secrete murdare ale vizualizării datelor

Autor: Randy Alexander
Data Creației: 23 Aprilie 2021
Data Actualizării: 19 Iunie 2024
Anonim
The Dirty Secrets of George Bush
Video: The Dirty Secrets of George Bush

Conţinut

Vizualizarea datelor - și, în special, vizualizarea datelor pe web - își are momentul. Bibliotecile JavaScript precum D3.js, Raphaël și Paper.js, bazate pe suportul modern al browserului pentru Canvas și SVG, au făcut mai ușor ca niciodată să producă vizualizări complexe care, până de curând, erau provincia informaticienilor și o mână de specialiști designeri.

Vizualizarea este noul element „obligatoriu” în propunerile de proiecte și portofoliile personale, iar startup-uri precum Platfora, Datameer și propriii noștri angajatori ClearStory Data și Chartio strâng milioane pentru platforme de analiză cu interfețe de vizualizare bazate pe browser.

Într-o anumită măsură, buzz-ul este justificat. Vizualizarea datelor este un mod minunat de a explora datele, de a găsi noi perspective și de a spune o poveste convingătoare. Dar care sunt adevăratele provocări cu care se confruntă dezvoltatorii de vizualizare - și ce nu vor să știți despre munca lor?

Vă vom conduce prin unele dintre secretele murdare ale profesiei de vizualizare a informațiilor (infovis), oferind o privire interioară asupra procesului de dezvoltare a vizualizării, împreună cu instrumente și abordări practice pentru a face față provocărilor și frustrărilor sale inevitabile.


Secretul 01: Datele reale sunt urâte

Majoritatea tutorialelor de vizualizare a datelor încep cu o fantezie plăcută: un set de date curat. Fie că învățați să construiți o diagramă de bare de bază sau un grafic de rețea orientat spre forță, vi se prezintă date de bază curate, normalizate, bine formatate. Acest fișier JSON sau CSV perfect este analogul digital al punerii în aplicare bine pregătite într-un show de gătit televizat: rezultatul rafinat al unei lucrări plictisitoare, minuțioase, prezentate ca ingrediente brute. În practică, atunci când vă ocupați de majoritatea seturilor de date din lumea reală, vă așteptați să vă petreceți până la 80% din timpul dvs. găsind, achiziționând, încărcând, curățând și transformând datele.

O parte din acest proces poate fi realizat cu instrumente automate, dar aproape orice curățare a datelor care implică două sau mai multe seturi de date va necesita un anumit nivel de lucru manual. O mare varietate de instrumente pot converti XLS în XML sau timestamp-uri în alte formate de date, dar nimic nu poate mapa automat categoriile de vânzări interne ale unei companii cu cele ale concurenților săi sau poate face față în mod fiabil greșelilor de introducere a datelor, codificărilor de caractere incompatibile sau (tremurând) slab OCR.


Instrumente și strategii

  • Bugetează un timp semnificativ în orice proiect de vizualizare pentru curățarea datelor. Măriți estimarea (în unele cazuri exponențial) pentru mai multe surse de date, date introduse manual sau date OCR, scheme de categorizare divergente și formate non-standard
  • Google Refine este un mare cal de curățare a datelor, deși are limitări, în special pentru datele non-tabulare. Alte instrumente specifice pentru curățare includ Data Wrangler și Mr. Data Converter.Cu toate acestea, multe sarcini necesită în continuare cunoștințe de bază într-un limbaj de scriptare, cum ar fi Python sau lucrul manual în Excel. Salvați scripturile - le veți folosi din nou
  • Mâncați propria hrană pentru câini dacă puteți: vizualizarea este un instrument excelent pentru identificarea problemelor de date. Utilizați graficele de dispersie și histogramele pentru a găsi și a remedia valori anormale suspecte

Secretul nr. 02: o diagramă cu bare este de obicei mai bună


Una dintre primele întrebări de pus atunci când se ia în considerare un potențial design de vizualizare este „De ce este mai bine decât o diagramă cu bare?” Dacă vizualizați o singură măsură cantitativă pe o singură dimensiune categorică, rareori există o opțiune mai bună. De asemenea, datele bazate pe timp sunt de obicei afișate cel mai bine pe o diagramă liniară, iar diagramele de împrăștiere sunt adesea cele mai bune pentru explorarea corelațiilor dintre două măsuri liniare. Cu riscul de a parea regresiv, există motive întemeiate că aceste diagrame sunt utilizate în mod continuu încă din secolul al XVIII-lea. Diagramele cu bare sunt unul dintre cele mai bune instrumente disponibile pentru facilitarea comparațiilor vizuale, valorificând capacitatea noastră înnăscută de a compara cu precizie lungimile alăturate.

Corolarul superiorității graficului de bare și poate cel mai murdar secret din acest articol este că vizualizările cele mai tari sunt adesea cele mai puțin utile. Noutatea și atracția estetică a vizualizărilor personalizate au un cost: claritatea datelor. Majoritatea alternativelor grafice cu bare îi cer privitorului să compare diferențele pe care le percepem mai greu: zone, unghiuri, nuanțe sau opacități. În cel mai bun caz, astfel de vizualizări fac compararea dificilă; în cel mai rău caz, distorsionează datele în întregime, ducând telespectatorii la concluzii false.

Instrumente și strategii

  • Nu respingeți opțiunile tradiționale de vizualizare dacă reprezintă cea mai bună opțiune pentru datele dvs. Începeți cu diagrame cu bare și linii și căutați mai departe numai atunci când datele o solicită
  • Aveți o justificare bună pentru alegerea altor opțiuni. Comparativ cu graficele cu bare, graficele cu bule acceptă mai multe puncte de date cu o gamă mai largă de valori; plăcintele și gogoșile indică în mod clar relații parțiale; hărțile copiilor acceptă categorii ierarhice
  • Diagramele cu bare au bonusul suplimentar de a fi una dintre cele mai ușoare vizualizări de realizat - puteți codifica manual o diagramă de bare eficientă în HTML folosind altceva decât CSS și JavaScript minim sau puteți crea una în Excel cu o singură funcție

Secret # 03: Nu există nici un substitut pentru datele reale

Curățarea și formatarea unui singur set de date este suficient de dificilă, dar ce se întâmplă dacă construiți o vizualizare live care va rula cu multe seturi de date diferite? Poate că trebuie să construiți o vizualizare pentru utilizare în mai multe departamente din cadrul unei companii, unde fiecare departament are propria bază de date și nu aveți timp să curățați manual fiecare set de date. Primul tău instinct poate fi să obții niște date demo și să le folosești pentru a-ți construi vizualizarea; biblioteca dvs. de vizualizare poate veni chiar și cu eșantion de date standard.

Din păcate, nu există un substitut pentru datele reale. Datele demonstrative tind să aibă o distribuție normală și un număr de înregistrări gestionabil; este conceput pentru a arăta vizualizări în cea mai bună lumină. O diagramă cu bare nu are doar bare preliminare, ci arată ca o diagramă cu bare ideală. Nu vă ajută să planificați discrepanțele de date, valorile nule, valorile aberante sau alte probleme din lumea reală. Dacă vă bazați prea mult pe datele demo, atunci când conectați date reale, este posibil să vedeți că vizualizarea dvs. nu este cea mai potrivită pentru a începe datele dvs.

Instrumente și strategii

  • Utilizați în mod ideal mai multe eșantioane de date reale dacă nu puteți accesa un set de date întreg
  • Datele nevalide și lipsă sunt o garanție. Dacă datele dvs. nu vor fi curățate înainte de a fi graficate, nu curățați datele eșantionului
  • Datele reale pot fi atât de mari încât să vă copleșească vizualizarea sau sistemul care o generează. Asigurați-vă că, dacă utilizați un eșantion de date, măriți corect dimensiunea eșantionului (sau o reduceți corespunzător) înainte de a crea o vizualizare finală

Secretul # 04: Diavolul este în detalii

Proiectarea etichetelor, legendelor și axelor pentru vizualizarea dvs. este adesea o gândire ulterioară vizualizării inițiale. Dar aceste elemente sunt de o importanță crucială pentru vizualizare și pot fi dificile și consumatoare de timp pentru a obține corect, mai ales atunci când nu puteți prevedea datele din timp.

Când amplasați vizualizarea, lăsați spațiu de redare semnificativ pentru orice semne suplimentare de care aveți nevoie, incluzând adesea margini relativ largi în jurul părții grafice a vizualizării. Etichetele axei trebuie să fie spațiate astfel încât să nu se ocludească reciproc și să fie ușor de citit. Folosiți rotirea sau repoziționarea etichetelor, dacă este necesar pentru lizibilitate. Dacă o anumită zonă este supraaglomerată cu etichete, dar aveți nevoie de ele pentru claritate, luați în considerare mutarea etichetelor mai departe de elementele la care fac referință și conectați-le cu o linie indicatoare. O altă tehnică este de a grupa etichete aglomerate într-un singur grup de tip tooltip. Luați în considerare spațiul pe care l-ați permis și lungimea etichetelor mai lungi. Dacă etichetele nu se potrivesc, poate fi necesar să le scurtați cu elipse sau pur și simplu să tăiați textul la o lungime fixă.

În mod similar, legendele necesită o planificare prealabilă pentru a reda bine. O opțiune ușoară este să rezervați un spațiu pentru legendă pe o parte a imaginii. Din păcate, aceasta înseamnă că va trebui să reduceți dimensiunea porțiunii grafice a vizualizării. Pentru a păstra un anumit spațiu, puteți plasa legenda într-o parte goală a graficului sau puteți face legenda glisabilă, astfel încât vizualizatorul să poată accesa orice grafică de dedesubt.

Instrumente și strategii

  • Planificați spațiul din jurul graficului pentru etichete, axe și legende
  • Desemnați o lungime maximă de caractere pentru etichete, tăind dacă este necesar pentru a preveni aglomerarea. Grupați etichetele din apropiere, dezvăluindu-le ca răspuns la acțiunile utilizatorului
  • Luați în considerare defilarea sau extinderea în stil acordeon pentru legende lungi
  • Orice ai face, nu lăsa aceste elemente în afara. Etichetele pot părea o preocupare secundară atunci când vă concentrați asupra elementelor grafice, dar sunt incredibil de importante pentru spectatorii dvs.

Secretul # 05: Animează numai atunci când este cazul

În calitate de autor de vizualizare, este adesea tentant să adăugați animații în produsul dvs. final. Animațiile sunt un mod puternic de conectare a datelor la schimbările de stare și tendințe. Cu toate acestea, animațiile pot duce și la interpretări confuze sau înșelătoare ale datelor dvs. Ar trebui să planificați cu atenție modul în care vă va afecta întreaga ieșire și nu doar să o adăugați la sfârșitul lucrării. Animațiile funcționează cel mai bine atunci când pot dezvălui relații de date care arată modul în care grupurile de date sunt împreună între diferite stări, modul în care datele se schimbă în timp sau modul în care punctele de date sunt direct legate.

În general, faceți animațiile simple, previzibile și redabile. Permiteți utilizatorilor să vizualizeze animația de mai multe ori, astfel încât să poată urmări de unde încep și se termină obiectele. Evitați ocluzia obiectelor într-o tranziție cu alte obiecte, ceea ce face urmărirea mai dificilă și nu faceți tranziția obiectelor de-a lungul căilor imprevizibile. Cu animații complexe, cercetările sugerează că înțelegerea spectatorilor se îmbunătățește atunci când animația este împărțită în tranziții simple „în etape”. O etapă întrerupe animația cu obiectele într-o stare de tranziție și oferă privitorului un moment pentru a reflecta asupra stării fiecărui obiect.

Instrumente și strategii

  • Încercați să vă faceți animațiile cât mai simple posibil
  • Luați în considerare animațiile în etape atunci când o animație este fie complexă, fie are multe obiecte în tranziție
  • Animațiile strălucitoare sunt adesea distractive la început, dar devin rapid frustrante pentru spectator. Nu adăugați animație doar pentru că puteți

Secret # 06: Vizualizarea nu este analiză

Este un principiu central al domeniului, care vizualizarea datelor poate oferi o perspectivă semnificativă. Deși există o mulțime de adevăruri în acest sens, este important să ne amintim că vizualizarea este un instrument care ajută analiza, nu un substitut pentru abilitățile analitice. De asemenea, nu înlocuiește statisticile: graficul dvs. poate evidenția diferențe sau corelații între punctele de date, dar pentru a trage concluzii în mod fiabil din aceste informații este nevoie adesea de o abordare statistică mai riguroasă. (Reversul poate fi, de asemenea, adevărat - așa cum demonstrează Cvartetul Anscombe, vizualizările pot dezvălui diferențele statistice ascunse.) Înțelegerea cu adevărat a datelor dvs. necesită, în general, o combinație de abilități analitice, expertiză în domeniu și efort. Nu vă așteptați ca vizualizările dvs. să facă acest lucru pentru dvs. și asigurați-vă că gestionați așteptările clienților și ale CEO-ului dvs. atunci când creați sau puneți în funcțiune vizualizări.

Instrumente și strategii

  • Cu excepția cazului în care sunteți analist de date, fiți foarte atenți la perspectivele reale promițătoare. Luați în considerare colaborarea cu un statistician sau cu un expert în domeniu dacă trebuie să oferiți concluzii fiabile
  • Deciziile de proiectare mici - paleta de culori pe care o utilizați sau modul în care reprezentați o anumită variabilă - pot distorsiona concluziile sugerate de o vizualizare. Dacă utilizați vizualizări pentru analiză, încercați o varietate de opțiuni, mai degrabă decât să vă bazați pe o singură vizualizare
  • Al lui Stephen Few Acum îl vezi oferă o bună introducere practică la utilizarea vizualizării pentru analiza afacerii, inclusiv sugestii pentru dezvoltatori cu privire la modul de proiectare a instrumentelor de vizualizare valabile din punct de vedere analitic

Secretul # 07: Vizualizarea datelor necesită mai mult decât cod

Gama de biblioteci și tutoriale disponibile acum face mai ușoară ca oricând producerea de vizualizări bazate pe web de calitate a producției fără expertiză specializată. Dar crearea de vizualizări care să ofere o perspectivă reală sau să spună o poveste convingătoare necesită totuși o gamă deosebit de largă de abilități reale în plus față de codificare, inclusiv design grafic, analiză a datelor și o înțelegere a designului interacțiunii și a percepției umane. Nicio bibliotecă sau tehnologie nu poate înlocui știind ce faci.

Dar partea inversă a acestui secret este că nu trebuie să știți atât de mult - mai ales dacă utilizați vizualizări bine stabilite și principii de interacțiune. Aflați suficient despre câmp pentru a evita greșelile începătorilor (întotdeauna puneți la zero diagramele de bare și nu setați niciodată o rază de cerc cu o scară liniară), păstrați lucrurile simple (fără animație 3D, fără umbră), bazați-vă pe exemple solide și puteți crea vizualizări grozave.

Cuvinte: Nate Agrin și Nick Rabinowitz

Nick Rabinowitz este dezvoltator senior de vizualizare a datelor la ClearStory Data. Are o experiență de peste 15 ani lucrând la proiecte web și de vizualizare, în principal pentru clienți non-profit, academici și din sectorul public.

Nate Agrin este directorul de vizualizare la Looker. A studiat teoria informației și vizualizării la UC Berkeley și a lucrat la companii precum Splunk și Twitter, contribuind la interfețele lor web.

Articole Proaspete
Rezolvat Am uitat parola Windows Vista, ce pot face acum?
Citit

Rezolvat Am uitat parola Windows Vista, ce pot face acum?

Odată cu lanarea Window 10, trebuie ă fi căpat de computerele peronale vechi la computerele noi, rapide și eficiente cu Window 10 preintalat. la vechiul tău Window Vita pentru că tu ați uitat parola V...
Cum se remediază eroarea „Aceasta nu este o parolă de resetare a parolei”
Citit

Cum se remediază eroarea „Aceasta nu este o parolă de resetare a parolei”

„Am creat un dic de reetare a parolei pe un cont local pentru a reeta parola unui cont de adminitrator a cărui parolă am uitat-o. Cu toate acetea, când expertul e dechide și încerc ă reetez ...
Top 2 moduri de a face upgrade Windows 10 Home la Pro
Citit

Top 2 moduri de a face upgrade Windows 10 Home la Pro

Window 10, cel mai recent item de operare de la Microoft și ucceorul Window 8.1 ete diponibil în mai multe ediții, cu Home și Pro parte din edițiile de bază. Deși ambele veriuni au aceleași carac...