Test di usabilità e soddisfazione degli utenti: dati inaffidabili?

C’è una cosa che tutti coloro che hanno svolto test di usabilità sanno: non bisogna fidarsi dei giudizi degli utenti. In particolare, capita abbastanza spesso che utenti che hanno fallito un determinato compito, lo giudichino a posteriori comunque facile o molto facile!

Nielsen ci ha costruito sopra addirittura una “Legge” dell’usabilità: non ascoltate gli utenti. Le ragioni che Nielsen riporta sono senz’altro vere:

  1. Gli utenti tendono a dire ciò che è più socialmente accettabile (e parlar bene di qualcosa, durante un test su quella cosa, è più accettabile che criticarla)
  2. Spesso non si ricordano quello che hanno fatto davvero
  3. Spesso tendono a razionalizzare il proprio comportamento, cioè a darsi delle spiegazioni a posteriori.

Io aggiungo che, inoltre, alcuni utenti possono non capire di aver sbagliato (è abbastanza evidente se si usano le verbalizzazioni, cioè il thinking aloud, durante il test) e che, infine, possono sbagliare nell’esprimersi secondo la scala di valutazione post-test. Solitamente si tratta di item di tipo likert a 5 o 7 punti, e talvolta la formulazione verbale non è sufficientemente chiara o gli utenti la fraintendono per proprie idiosincrasie.

Quantificare la distanza fra valutazioni e prestazioni

Tutto questo però non significa affatto che le metriche di soddisfazione (i giudizi, quello che gli utenti dicono) non vadano raccolte. Semplicemente, vanno interpretate con alcune cautele.

Ce lo ricorda in un interessante articolo Jeff Sauro di Measuringusability.com, sito dedicato ai dettagli statistici del mestiere dell’usabilità. In un’analisi comparativa di vari studi con oltre 19.000 tentativi di completamento di un task, ha comparato il livello di completamento del task con il giudizio successivo. Vi risparmio qui i dettagli di metodo, che comprendono una normalizzazione di diverse scale di misura adottate dai diversi studi. La conclusione di Sauro è che il 14% degli utenti che falliscono un compito lo giudicano con il massimo del punteggio di soddisfazione. Circa uno su sette.

Il dato non è altissimo, dice Sauro. Non abbastanza da costruirci sopra una “regola assoluta” (il riferimento è a Nielsen). Tuttavia, i dati possono essere, come al solito, letti in molti modi. Se oltre al punteggio massimo includiamo anche i soggetti che danno un giudizio comunque positivo del compito (scegliendo almeno il 70% del punteggio massimo, come sarebbe a mio avviso corretto), il dato è ben più soprendente: ben un utente su 3 (32.5%) tra quelli che falliscono un compito alla fine lo giudicano positivamente!

Uno su tre è davvero molto. Questo non significa che i punteggi di soddisfazione non siano utili: vi è comunque una correlazione positiva fra punteggi di soddisfazione e successo, come anche Nielsen riconosce: una correlazione che varia fra 0.44 e 0.51, secondo alcuni dati riportati da Sauro. Buona su grandi numeri, ma certamente poco affidabile per test con pochi soggetti come abitualmente si fa in Italia. Certamente il punteggio di soddisfazione spiega solo una parte del completamento dei compiti.

Vedendo il bicchiere mezzo pieno, Sauro nota che se si guarda solo ai punteggi estremi (il massimo o il minimo di soddisfazione), be’, allora oltre l’80% degli utenti che assegnano il punteggio massimo a un compito l’ha effettivamente superato, e il 20% l’ha fallito, regola 80/20 che vale anche all’inverso (solo il 20% di chi giudica con il giudizio più negativo un compito l’ha superato, mentre l’80% l’ha fallito). E, in definitiva, quando un utente fallisce un compito ha una probabilità di 6 volte maggiore di assegnargli un giudizio inferiore al massimo, rispetto al massimo.

Il merito dell’articolo di Sauro è quello di dare una quantificazione dell’errore di valutazione. Ma comunque la si giri, è evidente che la correlazione fra successo e giudizio (espressione più generale del rapporto fra usabilità reale e usabilità percepita) è tutt’altro che perfetta, soprattutto se includiamo anche i punteggi non estremi.

Come raccogliere i dati di soddisfazione e interpretarli in maniera utile

Tuttavia, ci sono ottime ragioni per continuare a misurare anche la soddisfazione soggettiva. Anzitutto, per valutare se i dati si discostano molto da quelli di Sauro. Inoltre, perché l’usabilità percepita, la soddisfazione, possono aumentare la tolleranza anche verso siti dall’usabilità subottimale. Infine, perché è possibile misurare la soddisfazione in modi vari, in maniera da trarre indicazioni utili al redesign.

Un approccio per “aree di design”

Ad esempio, invece di concentrarsi solo sulla facilità dei singoli task, è utile usare un questionario finale di valutazione generale di vari aspetti del design. Comprendenti domande sulla navigazione, altre sulle funzioni di ricerca, altre sulla grafica, altre sui contenuti e il linguaggio.

Proprio perché sono tutte misure di soddisfazione (e dunque tutte soggette alle medesime distorsioni), è particolarmente interessante notare le differenze interne fra le aree. Se quelle legate alla grafica risultano complessivamente più positive di quelle legate alla navigazione, possiamo avere un chiaro segnale che la navigazione va migliorata.

Interpretare i dati oggettivi attraverso quelli soggettivi

Oltre a questo approccio differenziale per aree, che può servire a dare priorità agli interventi di redesign, evitando di toccare ciò che funziona per concentrarsi su ciò che funziona meno, è anche possibile usare questi risultati per guidare l’interpretazione dei risultati prestazionali del test. Guardando per esempio le valutazioni dei singoli soggetti, è possibile reinterpretare le difficoltà che hanno incontrato durante l’esecuzione, per capire cos’è che li confondeva. Anche qui, particolarmente utile è l’analisi delle differenze: cioè valutare le diverse difficoltà di utenti che hanno dato valutazioni opposte ad un’area, per esempio la navigazione, in base alla loro capacità dimostrata di muoversi fra i menu.

Le valutazioni soggettive sono insomma correlate in maniera imperfetta con le prestazioni, ma, se correttamente raccolte, sono dati utili sia per guidare l’interpretazione dei risultati del test, sia per identificare in maniera rapida le aree del design sulle quali intervenire più tempestivamente. Informazioni che, senza i dati soggettivi (cioè solo con i dati di prestazioni) sarebbe molto più difficile identificare con chiarezza.

Per approfondire

Aggiornamento 2015 Questo e altri argomenti correlati vengono trattati più diffusamente nel corso avanzato: Misurare l’usabilità, disponibile in modalità “in-house” per enti e aziende che lo richiedono, e che affronta i dettagli di metodo nella valutazione dell’esperienza dell’utente con test e questionari.