Cosa sono i test di usabilità

Una delle difficoltà più sorprendenti per chi si occupa di consulenze di usabilità è quella di vedersi sempre più spesso chiedere cosa siano e a cosa servano i test di usabilità. E' evidente che se un cliente non conosce uno strumento, non lo può apprezzare, né comprare. Si è fatta troppa poca comunicazione e troppa confusione su cosa siano questi test. Proviamo in questo articolo a fare un po' di chiarezza e a puntualizzare cosa sono, a cosa servono e, almeno a grandi linee, come si fanno i test di usabilità, per capire quali siano i vantaggi e gli svantaggi dei diversi modi con cui si possono applicare all'usabilità dei siti web.

Un insieme di metodologie

Anzitutto è bene precisare che i test di usabilità sono un insieme di metodologie. Soprattutto negli ultimi anni, con l'avvento dell'usabilità sul web, non è bene pensare al test come ad una tecnica che si applica in un modo solo, all'interno di una precisa cornice teorica e di un unico paradigma sperimentale. E' più corretto dire che si tratta di una famiglia di tecniche, che peraltro sono la vera ragion d'essere e il punto di forza dell'usabilità rispetto ad altre discipline. Il compito dei test è studiare il comportamento degli utenti reali alle prese con prodotti reali (i siti) o con loro prototipi, con due obiettivi:

  1. Identificare criticità e colli di bottiglia dell'interfaccia, per poterli correggere in fase di design
  2. Capire come l'utente si muove e ragiona, e dunque quali sono le ragioni di eventuali difficoltà, per tenerne conto nella fase di progettazione.

I test prevedono che ogni utente venga osservato individualmente, e non in situazioni di gruppo, e che i compiti che esegue siano gli stessi per ogni utente che partecipa al test. Questo è ciò che accomuna le diverse tecniche. Tutto il resto cambia a seconda dei vincoli di ogni progetto. Per capirci, affronteremo due diverse varianti, per concludere poi con un metodo di osservazione totalmente ecologico, privo dei vincoli dei primi due metodi, ma che proprio per questo ha applicabilità limitata.

Il test sperimentale

Quella sperimentale è la metodologia più completa e rigorosa con la quale si possa affrontare il test. E' caratterizzata da una lunga fase di progettazione e definizione teorica, durante la quale si progetta un disegno sperimentale vero e proprio. Non è possibile in questo articolo entrare nei dettagli, ma possiamo riassumere così i requisiti:

  1. Identificazione di tutte le variabili coinvolte nell'interazione fra utente e sito. Tipicamente, esse riguardano alcuni assunti sulle persone che verranno testate, che devono appartenere ad una stesso gruppo, ma anche assunti sulle caratteristiche dell'interfaccia, di ciò che può variare e che può incidere sulla prestazione
  2. Reclutamento dei soggetti su base campionaria: identificata la popolazione scelta, bisogna estrarre da essa un campione di persone che dia ragione dell'intera popolazione, anche cioè di coloro che non possiamo testare direttamente. I soggetti vengono divisi in gruppi statisticamente equivalenti, ad ognuno dei quali verrà sottoposta una delle condizioni sperimentali che si intendono confrontare (interfaccia A e interfaccia B, a parità di ogni altra situazione, per esempio).
  3. Presenza di precise ipotesi sperimentali. Il test è un vero e proprio esperimento scientifico dove attraverso il controllo delle variabili coinvolte si prova a falsificare una certa ipotesi (per esempio che l'interfaccia A sia ugualmente efficace dell'interfaccia B, per quella data popolazione)
  4. Misurazione rigorosa dei dati sperimentali, con eventuale registrazione della prestazione su videotape. Vengono raccolti i dati rilevanti per la misura della variabile che vogliamo controllare (numero di errori, per esempio, o numero di click, o tempo di esecuzione, eccetera)
  5. Analisi statistica dei dati. i dati raccolti vengono analizzati e corretti secondo opportune tecniche statistiche. Al termine una formula matematica ci dirà se, al netto di tutto ciò che siamo riusciti a controllare, un gruppo avrà ottenuto o meno una prestazione significativamente migliore di un'altra, oppure no. Non solo: ci dirà anche con quale grado di probabilità quella differenza (o quella mancata differenza) sia attribuibile al caso, oppure alle variabili che abbiamo controllato

Questo tipo di metodologia richiede un numero molto alto di soggetti. Ogni gruppo deve andare da un minimo di 12-15 soggetti fino ad un ideale di 25-30. Moltiplicato per il numero di gruppi (di solito almeno due, a meno di usare un disegno pre-post, raro nell'usabilità), si fa presto a calcolare il costo e i rischi di una tale metodologia. Per di più, questa tecnica consente di valutare soprattutto una variabile precisa: quella che differenzia A da B. Lo fa con un alto grado di attendibilità, ma non è quel che di solito serve in un progetto web. Il rapporto benefici/costi è decisamente sbilanciato a favore dei costi. Tale tecnica è indispensabile per verificare e far evolvere modelli concettuali e teorici. Non altrettanto per un progetto web.

Il test semplificato

In questa metodologia, lo scopo è ottenere indicazioni su possibili elementi dell'interfaccia che ostacolino il corretto svolgimento dei compiti da parte dell'utente medio o di un target più preciso di utenti (a seconda del progetto). E' una versione metodologicamente semplificata del set sperimentale visto sopra. Ciò che occorre per condurre questo test è:

  1. Un'interfaccia almeno semi-funzionante del sito o dei bozzetti di lavoro
  2. Una serie di compiti significativi da somministrare ai partecipanti
  3. Una sede comoda, in cui non venir disturbati, con un computer e una connessione dello stesso livello di quelle che usano gli utenti tipici
  4. Un numero di utenti variabile da 3 a 8 per ogni gruppo relativamente omogeneo di utenti, da convocare uno alla volta.
  5. Un osservatore esperto che conduca il test mettendo a proprio agio le persone senza influenzarne la prestazione, e che sia in grado di annotare errori e osservazioni in tempo reale, traendo il massimo dai soggetti coinvolti

Eventualmente è possibile registrare o audioregistrare la seduta. La presenza di una telecamera può mettere a disagio l'utente e non è sempre consigliata. L'audioregistrazione è invece indispensabile quando si utilizza, all'interno di questa metodologia, la tecnica del pensare ad alta voce (Thinking aloud), usata in ambito clinico e pedagogico con diverse funzioni, fra cui quella di esplicitare i processi cognitivi mentre avvengono. Inevitabilmente il TA è una tecnica invasiva, che influenza l'oggetto stesso che tenta di osservare, cioè il pensiero. Inoltre rallenta l'utente: in quel caso non vanno considerati i tempi di prestazione. Tuttavia è utile perché costringe l'utente ad una maggior concentrazione. Se nonostante questo sforzo avvengono errori o incomprensioni, è altamente probabile che questi avvengano a maggior ragione in condizioni naturali, con concentrazione più bassa.

Il TA andrebbe usato da un trainer addestrato: idealmente solo uno psicologo può avere questa formazione. Quando ho visto usare questa tecnica da persone non esperte, anche se magari molto esperte nella conduzione di altri strumenti, come i focus group, si sono evidenziati gravi errori di conduzione, per lo più inconsapevoli. Bisogna resistere alla tentazione di indagare quello che ci interessa ad ogni costo: è necessario lasciare libero l'utente di affrontare il compito con la strategia che preferisce e con la libertà di ragionamento che crede. Vi sono alcune semplici tecniche per tornare su un dato argomento, o per ottenere approfondimenti su un aspetto. Ma vanno usate con cautela e moderazione e non vanno insegnate in un semplice articolo. Approfondimenti su un certo aspetto dell'interfaccia possono essere richiesti al termine della prestazione, quando è opportuno un piccolo colloquio chiarificatore con l'utente che si è prestato al test. Un conduttore addestrato è la scelta migliore per questi test, perché minimizza i rischi connessi ad una cattiva conduzione. Se bisogna spendere una certa cifra per utenti e attrezzature, almeno è bene fare in modo che questo investimento non vada bruciato da un esperto… poco esperto. Certo, anche l'esperto è un costo (relativo, all'interno del budget di un progetto), ma serve a far fruttare gli altri soldi investiti: va visto dunque come una risorsa, a patto di sceglierlo bene.

Questi test sono di solito molto faticosi, possono durare anche un'ora per soggetto, e condurne 4 o 5 di seguito affatica molto il conduttore, che rischia di invalidare i successivi per mancanza di concentrazione e lucidità. Questi test vanno accompagnati da opportuni moduli da far compilare ai soggetti, meglio se comprendenti anche dei questionari da valutare a parte.

I dati che si raccolgono, dato l'esiguo numero dei partecipanti, non hanno validità statistica. Possono comunque essere riassunti in grafici o tabelle per semplificare l'esposizione, con l'accortezza però di non farli passare per rappresentativi di una popolazione, ma come utili indicazioni di tendenza da confrontare con le prestazioni riscontrate.

Scienza o arte?

Molto si è scritto, anche a sproposito, sulla scientificità di questo metodo. Dato che la bassa numerosità del campione rende i dati statisticamente inattendibili, si pretende che questo metodo non abbia dignità scientifica. Per restituirgliene almeno in parte si cita a volte la famosa ricerca di Nielsen e Landauer (che mi risulta mai replicata) sul fatto che 5 utenti identificherebbero la quasi totalità dei problemi di usabilità di un'interfaccia, dato che ogni utente successivo al primo incontra problemi in parte già incontrati dai suoi predecessori, e solo in parte di nuovi. Di conseguenza, sarebbe addirittura uno spreco utilizzarne più di cinque!

Comunque si voglia considerare questa ricerca, non bisogna confondere i test sperimentali, statisticamente significativi, con i test semplificati, non significativi. E' lo scopo dei due strumenti ad essere diverso, e pure il paradigma concettuale da cui nascono. Lo scopo dei primi è quello di prendere decisioni su ipotesi precise, non di analizzare le cause di un ampio spettro di comportamenti; quello dei secondi è identificare un insieme di problemi dell'interfaccia, scoprirne le cause e rimuoverli. Il test informale non è insomma il parente povero del test sperimentale: è un altro strumento, da usare in situazioni diverse e con obiettivi diversi, per i quali si dimostra più adatto. Ciò che è più importante, la mancanza di validità statistica non significa che il test si possa condurre senza preparazione, come a volte si crede. Ci sono molti accorgimenti 'tecnici' da adottare durante la sua conduzione, che rendono questa metodologia altrettanto passibile di invalidazione e di errore qualora non venissero attuati. Per condurre questi test in maniera scientifica è necessario conoscere gli assunti teorici e metodologici su cui si fondano, per capire quali comportamenti del conduttore o quali variabili ambientali possono influenzarli. Il fatto che i dati siano soprattutto di tipo qualitativo non toglie rigore allo strumento e non elimina la necessità di un'accurata preparazione del set, in modo di tenere sotto controllo il maggior numero di variabili possibili.

Un approfondimento metodologico interessante sui metodi di osservazione di questo tipo è quello proposto da Francesco Casetti e Federico Di Chio, che nell'appendice del loro "Analisi della Televisione" (Bompiani, 2001), affrontano il problema della validità degli strumenti di analisi di quel mezzo. Anche nello studio della tv, infatti si utilizzano – assieme altre tecniche – indagini ad personam, statisticamente non rappresentative. Ciò che questi metodi hanno a loro vantaggio, però, è l'esemplarità delle singole osservazioni, rispetto alla rappresentatività dei metodi a base statistica. L'esemplarità è basata sulla significatività qualitativa, invece che quantitativa, e si fonda sull'identificazione e l'approfondimento di modi di comportamento che potrebbero rappresentarne altri. Ogni soggetto diventa dunque esemplare di altri comportamenti, anche se naturalmente potrebbe non coprire l'intera gamma di comportamenti possibili, e di fatto non la copre. Rimandiamo a quel testo per approfondimenti.

L'osservazione ecologica

In questa metodologia ci si sforza di osservare una certa popolazione di utenti del sito in un contesto il più possibile naturale, tentando di non farsi notare mentre si osserva, per non influenzare la naturalezza del comportamento. Tutto ciò che l'osservatore deve fare in questa fase è annotare, di solito secondo una griglia di osservazione predisposta, comportamenti, attività rilevanti, elementi che possano essere in qualche modo utili alla progettazione. Il vero scopo di questo tipo di osservazione, è di tenere conto dell'esecuzione di una certa attività nel contesto reale, che spesso sfugge ai progettisti. Ad esempio, una procedura di acquisto di medicinali da parte di farmacisti può essere progettata per la massima sicurezza della transazione, con un'estrema attenzione alle fasi cruciali del compito e con una gestione di time-out che faccia cadere le transazioni che durano oltre un certo tempo, per ragioni di sicurezza. Tuttavia ad un'osservazione del contesto ci si accorgerebbe che i farmacisti lavorano spesso in un ambiente rumoroso e distraente, e vengono spesso interrotti da clienti o colleghi. Capita così che la procedura di acquisto venga interrotta e ripresa più volte. Diventa allora cruciale la chiarezza di ogni fase della procedura d'ordine e la necessità di tener traccia costante delle attività fin lì svolte.

Molte cose si possono scoprire dall'osservazione naturale del contesto, che è molto utile nelle intranet o in situazioni nelle quali l'utenza è molto controllata. E' inutile, per fare un altro esempio, distribuire in una intranet i documenti in formato pdf da stampare, se vi è un'unica stampante centralizzata, accessibile solo a pochi… Meglio fornire diverse alternative, anche in html semplice e leggero, ottimizzato per la lettura a monitor.

Come scegliere

Inutile dire che in ambito web il primo tipo di metodo non viene praticamente mai usato, a causa del suo limitato apporto al progetto (che si concentra solo su poche variabili definite a priori, limitando l'impatto delle scoperte) e del suo costo elevato. Molto più importante il test semplificato, perché genera scoperte in alcuni casi realmente creative su come altre persone utilizzano l'interfaccia. Passo decisivo di questo metodo è la depurazione dei risultati inutilmente idiosincratici, dei comportamenti che alcuni soggetti adottano solo per compiacere lo sperimentatore (spesso senza accorgercene) e la sintesi di quel che di buono si può trarre in una relazione agli sviluppatori che sia da essi realmente comprensibile. Elenchi di tabelle e grafici sono ben inutili se non si entra nello specifico di suggerimenti implementabili. Il costo di questo metodo varia a seconda di molti fattori, ma in una qualche variante esso è certamente sostenibile da qualunque progetto web io abbia partecipato, e i ritorni sono estremamente utili a identificare in maniera precoce problemi che altrimenti si trasferirebbero al prodotto finito, con danno ben più elevato del costo di una semplice tornata di test.

Idealmente, i test dovrebbero essere iterati più volte all'interno di un progetto: per capire quanto e quando, è bene contattare uno specialista fin dalle prime fasi del progetto. Solitamente consiglio ai clienti soluzioni su misura per il tipo di progetto, sovente con la possibilità di scegliere fra almeno due alternative.

L'osservazione ecologica è ovviamente utile quando… è possibile! Cioè quando il tipo di progetto la rende praticabile, quando si conoscono e si hanno sotto controllo ambienti d'uso e utenti di un determinato sito. E' sufficiente anche una sola mattinata di osservazione per trarre ottime indicazioni da parte di un esperto. E' sicuramente indicata nelle intranet o quando si debbano valutare utenti molto specifici, che operano in situazioni omogenee fra loro.

Qui sotto riportiamo una tabella riassuntiva dei tre metodi di cui abbiamo parlato con una indicazione di massima anche dell'ordine di spesa per i diversi metodi.

Metodi di osservazione strutturata degli utenti: caratteristiche a confronto
 Test sperimentaleTest informaleOsservazione ecologica
CostiAlti
(7.000-20.000 euro e più)
Medio-Bassi
(2.000-7.000 euro)
Bassi
(fino a 2.000 euro)
Numero utentida 25 a 50da 3 a 8Quanti disponibili
ProprietàAlta attendibilità; Verifica di ipotesi teoriche specifiche; ampiezza limitata dell'indagineEsemplarità; identificazione di un ampio ventaglio di problemi; insight sui motivi dei problemi incontratiIdentificazione di problemi legati al contesto e all'uso reale in condizioni reali, difficilmente riscontrabili nei test; scarsa verificabilità di dubbi e problemi specifici
Luogo di conduzioneLaboratorioStanza riservata con computerLuogo di lavoro
Dati raccoltiQuantitativi (tempi di risposta, numero di errori, di click, di successi, ecc.)Quantitativi (successi, errori, risposte a questionari) e qualitativi (Thinking aloud, interviste, colloqui di approfondimento)Qualitativi e quantitativi secondo una griglia predisposta

Cosa non sono i test di usabilità

Per finire, ci sembra interessante ricordare quello che i test non sono.

  1. I test di usabilità non sono focus group, non ci stancheremo mai di ricordarlo. Sebbene i focus group possano essere utili in specifiche fasi del progetto (più vicine a quelle di ideazione che di implementazione, però), queste situazioni non sono test di usabilità e non ci dicono nulla su come poi l'utente userà realmente quel prodotto.
  2. I test di usabilità non sono analisi euristiche, né analisi ispettive: questi sono metodi speculativi di analisi strutturata dell'interfaccia, altrettanto utili, ma svolte da esperti, non da utenti.
  3. Infine, i test di usabilità non sono task analysis (o analisi del compito). La task analysis non prevede l'uso di soggetti: è anch'essa un metodo di valutazione non empirico, speculativo e analitico, che prende le mosse da una precisa concettualizzazione del compito da svolgere, che viene scomposto nelle sue costituenti e attentamente analizzato a tavolino da un esperto. Non l'ho mai visto fare in un progetto web, e non ha comunque nulla a che vedere con un test, da cui è lontanissimo. Figuriamoci poi se possa aver a che fare con il thinking aloud, visto che non contempla l'uso di soggetti…

Queste poche note non vogliono essere esaustive: non basterebbe un libro di metodologia per affrontare tutte le varianti e le conoscenze necessarie a condurre appropriatamente i test di usabilità. Tuttavia sono sufficienti a farsene un'idea più precisa e forse a capire meglio quale strumento faccia al caso nostro.