Cos’è la learnability

In alcune definizioni la learnability – tradotta come “apprendibilità” o “facilità di apprendimento” – è considerata una delle sottocaratteristiche dell’usabilità. Per esempio, nella definizione di Nielsen. O anche nella definizione della norma ISO/IEC 25010, licenziata nel 2011 e che sostituisce la storica ISO/IEC 9126 (che comunque già all’epoca a sua volta includeva pure la learnability come dimensione dell’usabilità).

In questi casi, la learnability viene definita grosso modo come…

la facilità per gli utenti di eseguire un task con il sito o il sistema al primo tentativo.

La ISO/IEC 25010 dà ora una definizione un po’ più contorta, ma riguarda sempre la facilità di apprendere l’uso di un sistema con efficacia efficienza e soddisfazione in determinati contesti.

Il problema della sovrapposizione fra usabilità e facilità di apprendimento

Da ciò emerge come molto spesso nei test di usabilità si stia di fatto valutando la learnability. Se l’utente riesce a capire subito come fare a eseguire i compiti che gli vengono proposti su un’interfaccia con la quale non ha familiarità, allora il sistema è facile da apprendere e anche usabile. Se invece impiega diversi tentativi e commette diversi errori, è meno facile da apprendere e meno usabile.

Il problema con questa definizione è che appunto in molte circostanze si sovrappone all’usabilità, nonostante formalmente come visto le sia subordinata, e non è quindi particolarmente utile. Anzi, è confusiva.

La realtà, che conosciamo bene, è che la gente su molti sistemi impara. In molti sistemi complessi è persino previsto un periodo di training. Quindi per tali sistemi (app, webapp, siti e servizi online, software di back-office per operatori specialistici in vari settori, dal finanziario, al medico, all’amministrativo) il primo approccio non è sempre quello migliore per valutare l’usabilità del sistema, almeno non dal punto di vista della produttività futura.

Certo, per siti di pubblico dominio, dove l’utente non è vincolato all’uso e dove l’uso non è ripetuto, avere una ottima learnability, cioè una capacità di trovare le informazioni ed eseguire compiti al primo tentativo, è importante, ed è per questo che spesso nei test di usabilità si valuta proprio quello, anche senza consentire un periodo di addestramento al sistema. Il primo sguardo, il primo impatto è in quei casi quello che ci interessa valutare. Ma non è sempre così.

L’apprendimento nel tempo: un secondo significato per la learnability

Come correttamente ci ricorda Jeff Sauro, infatti, nei sistemi che prevedono addestramento questa accezione di learnability non è adeguata. Ne esiste infatti un’altra:

la capacità di un sistema di consentire di migliorare efficacia, efficienza e soddisfazione di un utente che esegue un compito nel tempo.

Usabilità nel tempo, insomma.

Si può valutare quindi come migliora la prestazione (in termini di efficacia, di tempo, o di numero di click per svolgere lo stesso compito, ad esempio) per lo stesso compito, in prove successive ripetute dagli stessi operatori a distanza di tempo.

E sappiamo che, in applicazioni complesse, con l’abitudine all’uso si riduce il tempo di esecuzione dei task e aumenta la loro accuratezza. Questi miglioramenti seguono la power law of practice. La legge suggerisce che l’apprendimento progressivo non avviene a un ritmo costante, ma segue un andamento che alcuni autori descrivono come logaritmico e altri (criticandoli) come esponenziale. Tralasciando i dettagli matematici1, significa semplicemente che se si impara in tempi relativamente rapidi la metà delle funzioni di un sistema, servirà un tempo più alto per imparare l’altra metà. Una discussione più dettagliata della curva di apprendimento è su wikipedia.

Man mano che impariamo, quindi, il tempo necessario per imparare la parte rimanente (di un sistema, di un argomento) aumenta, invece che diminuire.

Il paradosso della curva di apprendimento ripida

È interessante notare che quando si parla di “curva di apprendimento ripida” si intende qualcosa del genere, sebbene nel senso comune il significato inteso sia l’opposto. In una curva di apprendimento ripida, a essere ripida è la parte iniziale della curva, che indica il livello di apprendimento nel tempo.

In questa curva viene rappresentato il livello di apprendimento o di accuratezza di una prestazione, nel tempo, indicato in tentativi successivi.

Questa curva ripida indica però che il livello di apprendimento migliora rapidamente all’inizio, per poi rallentare (gli incrementi sono minori con l’aumentare dei successivi tentativi). Invece nel senso comune con “curva di apprendimento ripida” si intende una materia o un’attività molto difficile da approcciare, complessa, che richiede molto impegno e fatica all’inizio. E che non è affatto rappresentata da questa curva!

Per quanto riguarda i tempi di esecuzione in tentativi successivi, se i miglioramenti sono rapidi nei primi tentativi, sono ben esemplificati da una curva di questo tipo:

In questa curva viene indicato il tempo di esecuzione nel tempo, ovvero in tentativi successivi.

Dopo i primi miglioramenti, la curva (ripida, ma in discesa) si addolcisce, e i miglioramenti nel tempo di esecuzione sono più limitati. D’altra parte, come è ovvio, con l’esperienza non si fa che avvicinarsi al tempo di esecuzione ottimale, che costituisce il limite definitivo.

Prestazione e valutazione soggettiva

Da dati riportati dallo stesso Sauro, non solo gli utenti “esperti” o power user – quindi che hanno una ripetuta storia di utilizzo del prodotto – mostrano efficacia ed efficienza maggiore nell’eseguire gli stessi compiti, ma danno anche valutazioni migliori del prodotto rispetto ai novizi. Questa è anche la mia esperienza. Addirittura, Sauro parla solo dell’usabilità percepita, mentre alcuni miei dati segnalano anche un aumento della valutazione da 0 a 10 nel Likelyhood To Recommend e nel Net Promoter Score di pari passo con l’apprendimento del sistema. Questo potrebbe non applicarsi a tutti i casi e a tutti i prodotti, ed è semmai qualcosa da analizzare in ogni progetto, per capire eventualmente perché accade o non accade.

Cosa significa tutto questo per i test di usabilità

L’esistenza di queste due accezioni del termine “learnability” in generale significa che nei nostri test di usabilità dovremmo, di volta in volta, decidere qual è l’approccio alla valutazione più adatto al tipo di sistema. E anche alla conseguente valutazione di efficacia, efficienza e soddisfazione. Ad esempio, misurando il tasso di efficacia e i tempi di esecuzione degli stessi task in sessioni ripetute nel tempo, man mano che gli utenti usano il sistema (o passano da un prototipo ad un più raffinato ad una versione sempre più funzionante, se si lavora in fase di sviluppo). È una delle rare situazioni in cui è anche possibile utilizzare gli stessi utenti in test differenti, per esempio: perché lo scopo è proprio valutare il miglioramento nel tempo.

Non solo: la velocità di apprendimento può essere al centro anche di una serie di test di usabilità su prodotti simili ma differenti, ad esempio una serie di tool che svolgono le stesse funzioni e fra i quali, magari, si vuole scegliere. In quei casi è bene che il panel di partecipanti ai test sia diverso per evitare effetti di interferenza fra un tool e l’altro, anche se questa accortezza non è sempre possibile e addirittura consigliabile2.

Come si vede le variabili in gioco si moltiplicano ed è proprio per questo che serve una valutazione professionale adeguata del piano di test più appropriato alla situazione.

In definitiva, la facilità di apprendimento è un tema da tenere sempre presente in ogni tipo di test: sia quando questa corrisponde di fatto all’usabilità (nei siti e nelle applicazioni di uso occasionale), sia quando sottende un apprendimento nel tempo. Diverse modalità di pianificazione dei test sono di conseguenza possibili, purché tengano in adeguata considerazione tutti questi aspetti.

1 Si tratta di due modi di fare curve fitting, cioè di dedurre dai dati empirici quale funzione teorica spieghi meglio i dati. Se dico che non è importante qui, è perché ciò che conta è l’andamento dei dati empirici, che può ovviamente essere modellata meglio o peggio da alcune leggi matematiche. Non è la precisione del modello che importa nella pratica lavorativa, quanto il suo senso generale.

2 Per avere un panel diverso, si potrebbe optare per utenti giovani che entrano nel mondo del lavoro ora. Ma in quel caso entrerebbero in gioco variabili di expertise con lo strumento informatico che andrebbero ulteriormente tenute in conto… insomma, la questione si complica e richiede un’attenta valutazione.

Test di usabilità semplificati: il Protocollo eGLU

Nel 1989 Jakob Nielsen, oltre a semplificare le stesse regole di “design usabile” riassumendole in semplici principi euristici, ha proposto di semplificare i test di usabilità.

Negli anni ’80 spesso questi erano complessi e onerosi:

  1. Si svolgevano in veri e propri laboratori
  2. Utilizzavano molti partecipanti come negli esperimenti scientifici per ottenere indicazioni con elevata attendibilità
  3. Si svolgevano su prodotti già in parte implementati, con la conseguenza di dover spendere nuove ore/uomo di programmazione per le modifiche che i test avrebbero reso necessarie.

Nielsen e la Discount Usability

Secondo Nielsen questi vincoli ostacolavano la diffusione su larga scala dell’usabilità. Suggeriva così un approccio alternativo:

  • utilizzare molti meno utenti: ad esempio, solo 5 per ogni tornata di test.
  • eseguire i test su prototipi (anche cartacei) anziché sui software sviluppati
  • focalizzare i test soprattutto sull’osservazione qualitativa dei problemi, anziché sulla misurazione attendibile di aspetti quantitativi dell’esperienza d’uso
  • ripeterli più volte (almeno 3) nel corso del processo di progettazione.

Secondo l’approccio di Nielsen, i test di questo tipo non servono a decidere con elevata affidabilità quale interfaccia è migliore fra una versione A e una versione B (attività che richiede effettivamente un numero elevato di utenti). Ma “solo” per far emergere problemi precocemente, quando è più conveniente intervenire e modificare l’interfaccia, in particolare perché non si è ancora investito nell’attività di programmazione.

Questa era la ratio dell’espressione “discount usability” coniata da Nielsen, e che poi è stata ripresa e ulteriormente semplificata da Steve Krug nei suoi libri. Il costo si intende ridotto rispetto all’usabilità “anni ’80”, e non nel senso che non costi niente: ogni attività deve costare il giusto. Tipicamente, fra il 10 e il 20% del budget di progetto (includendo in questo budget non esclusivamente i test, ma anche i test).

Il protocollo eGLU

Ispirato in parte dagli approcci di Nielsen e Krug, il Dipartimento della Funzione Pubblica (DFP) ha dato vita nel 2012 ad un Gruppo di Lavoro per l’Usabilità (GLU). Dal 2013 ho il piacere di coordinare con il collega Simone Borsci un sottogruppo di professionisti e accademici che si è occupato di definire un semplice protocollo, cioè un testo con delle istruzioni operative passo passo, per la progettazione, la conduzione e l’analisi di semplici test di usabilità.

Gli scopi del protocollo

Gli scopi sono due:

  1. Anzitutto, diffondere la cultura dell’usabilità. Constatato che, quando il gruppo è nato (ma in tutt’Italia ancor oggi) nella PA spesso i test di usabilità non si sapeva nemmeno cosa fossero, salvo poche e lodevoli eccezioni, si è deciso di spiegare a “inesperti” di che si trattasse.
  2. Come strategia di diffusione, si è ritenuto che far capire che con una guida passo-passo anche dei non esperti – come ad esempio i redattori web delle PA -potevano provare a preparare dei test semplificati. Non per sostituirsi agli esperti, come talvolta erroneamente è stato inteso, ma per rendersi conto in prima persona dei problemi di usabilità che altrimenti non sarebbero mai stati evidenziati. In questo modo, provando a eseguire dei semplici test, per quanto semplificati (ma provando comunque a evitare gli errori più comuni per dei profani), l’idea era che i problemi di usabilità sarebbero diventati evidenti a tutti, e sarebbero stati fatti presenti ai responsabili.

In questo modo, nelle successive gare d’appalto, ci sarebbe stata maggior consapevolezza dei problemi legati all’usabilità e si sarebbero potute bandire fra le altre cose delle attività di testing.

L’applicazione in situazioni di mercato

Il Protocollo eGLU è giunto ora alla sua versione 2.1 e la scommessa pare per il momento vinta. La procedura infatti è utilizzata non solo da alcuni enti pubblici internamente, ma anche da aziende che lavorano per gli enti pubblici, perché è diventata sinonimo di “procedura consolidata” e riconosciuta per i test di usabilità nella PA.

Il Protocollo eGLU è stato infatti anche inserito come procedura per l’analisi dell’usabilità all’interno delle linee guida di design per i siti della PA. Ma in quanto procedura di base, può essere estesa a piacere dai professionisti.

Formazione e divulgazione

In quanto frutto di un lavoro pubblico, il Protocollo eGLU è scaricabile e leggibile, con tanto di allegati che aiutano nell’elaborazione dei risultati, sul sito del Dipartimento, ed è dunque utilizzabile da chiunque, sia per il proprio lavoro (da proporre ad enti e aziende) che come attività di autoformazione.

E la formazione è un altro dei capitoli collegati al protocollo: in quanto strumento “riconosciuto”, è ora più facile parlare di test di usabilità in generale e di Protocollo eGLU in particolare anche nella formazione per enti pubblici.

Per chi fosse interessato, su Usabile.it è possibile richiedere una formazione dedicata sui test di usabilità e sul Protocollo eGLU.

Il Protocollo come procedura di base per aggiunte modulari

Nello specifico, una delle caratteristiche su cui abbiamo creduto di impostare il lavoro di stesura del protocollo a partire dalla versione 2.0 è quella della modularità e della sua estendibilità.

Il protocollo eGLU è infatti pensato come una procedura di base che possa prevedere aggiunte ed estensioni di metodo laddove un professionista che lo adotti lo ritenga utile. Ad esempio:

  • Si può eseguire un test secondo il Protocollo eGLU, ma scegliere di raccogliere anche i tempi di esecuzione dei task (non trattati in questa procedura, perché impossibili da spiegare a un livello di base), se il tipo di test lo richiede.
  • O integrarlo con la rilevazione dei movimenti oculari (se ha senso per il tipo di test).
  • O aggiungere questionari di altro tipo (come il SEQ, per esempio).
  • O prevedere il calcolo dei click o degli errori.

E’ cioè possibile partire dal Protocollo eGLU, riferimento “compreso” all’interno della PA, per svolgere anche analisi e test più complessi.

Oltre il protocollo: strumenti di HCD nei bandi di gara

E’ sufficiente? No. Oltre alla formazione, che va sempre condotta e portata avanti, sull’argomento, abbiamo preso atto che ogni buon sito dipende in maniera stretta dalla bontà dei processi che lo generano. E quindi abbiamo iniziato a immaginare una guida, un aiuto per l’inserimento di attività HCD all’interno dei capitolati dei bandi pubblici, una volta constatato che questo inserimento è raro e talvolta approssimato.

Questa guida è contenuta nel documento “Le linee guida appalti web HCD” sulla stessa pagina del GLU linee guida.

Gli strumenti offerti (e migliorabili) tolgono ogni alibi

C’è da auspicare una sempre maggior circolazione e diffusione di Protocollo eGLU e delle Linee guida per gli appalti web HCD. Fare test di usabilità all’interno di un progetto web non è infatti una questione di soldi: quelli vengono spesi comunque, solo che senza spenderli per i test si spendono peggio. E’ una questione di volontà, e di capire che questo (assieme alle altre pratiche HCD) è l’unico modo per costruire un sistema digitale veramente utilizzabile dai cittadini ed evitare di buttare i soldi dei progetti come tante volte è stato purtroppo fatto, anche di recente, in Italia.

Ma la novità è che se queste opportunità non verranno colte, non si potrà invocare la mancanza di strumenti o il loro costo: dipenderà esclusivamente delle scelte dei dirigenti e dei responsabili dei progetti.

Credits: L’immagine dell’articolo è tratta dal film Kitchen Stories, che vi consigliamo di vedere.

Test di usabilità e soddisfazione degli utenti: dati inaffidabili?

C’è una cosa che tutti coloro che hanno svolto test di usabilità sanno: non bisogna fidarsi dei giudizi degli utenti. In particolare, capita abbastanza spesso che utenti che hanno fallito un determinato compito, lo giudichino a posteriori comunque facile o molto facile!

Nielsen ci ha costruito sopra addirittura una “Legge” dell’usabilità: non ascoltate gli utenti. Le ragioni che Nielsen riporta sono senz’altro vere:

  1. Gli utenti tendono a dire ciò che è più socialmente accettabile (e parlar bene di qualcosa, durante un test su quella cosa, è più accettabile che criticarla)
  2. Spesso non si ricordano quello che hanno fatto davvero
  3. Spesso tendono a razionalizzare il proprio comportamento, cioè a darsi delle spiegazioni a posteriori.

Io aggiungo che, inoltre, alcuni utenti possono non capire di aver sbagliato (è abbastanza evidente se si usano le verbalizzazioni, cioè il thinking aloud, durante il test) e che, infine, possono sbagliare nell’esprimersi secondo la scala di valutazione post-test. Solitamente si tratta di item di tipo likert a 5 o 7 punti, e talvolta la formulazione verbale non è sufficientemente chiara o gli utenti la fraintendono per proprie idiosincrasie.

Quantificare la distanza fra valutazioni e prestazioni

Tutto questo però non significa affatto che le metriche di soddisfazione (i giudizi, quello che gli utenti dicono) non vadano raccolte. Semplicemente, vanno interpretate con alcune cautele.

Ce lo ricorda in un interessante articolo Jeff Sauro di Measuringusability.com, sito dedicato ai dettagli statistici del mestiere dell’usabilità. In un’analisi comparativa di vari studi con oltre 19.000 tentativi di completamento di un task, ha comparato il livello di completamento del task con il giudizio successivo. Vi risparmio qui i dettagli di metodo, che comprendono una normalizzazione di diverse scale di misura adottate dai diversi studi. La conclusione di Sauro è che il 14% degli utenti che falliscono un compito lo giudicano con il massimo del punteggio di soddisfazione. Circa uno su sette.

Il dato non è altissimo, dice Sauro. Non abbastanza da costruirci sopra una “regola assoluta” (il riferimento è a Nielsen). Tuttavia, i dati possono essere, come al solito, letti in molti modi. Se oltre al punteggio massimo includiamo anche i soggetti che danno un giudizio comunque positivo del compito (scegliendo almeno il 70% del punteggio massimo, come sarebbe a mio avviso corretto), il dato è ben più soprendente: ben un utente su 3 (32.5%) tra quelli che falliscono un compito alla fine lo giudicano positivamente!

Uno su tre è davvero molto. Questo non significa che i punteggi di soddisfazione non siano utili: vi è comunque una correlazione positiva fra punteggi di soddisfazione e successo, come anche Nielsen riconosce: una correlazione che varia fra 0.44 e 0.51, secondo alcuni dati riportati da Sauro. Buona su grandi numeri, ma certamente poco affidabile per test con pochi soggetti come abitualmente si fa in Italia. Certamente il punteggio di soddisfazione spiega solo una parte del completamento dei compiti.

Vedendo il bicchiere mezzo pieno, Sauro nota che se si guarda solo ai punteggi estremi (il massimo o il minimo di soddisfazione), be’, allora oltre l’80% degli utenti che assegnano il punteggio massimo a un compito l’ha effettivamente superato, e il 20% l’ha fallito, regola 80/20 che vale anche all’inverso (solo il 20% di chi giudica con il giudizio più negativo un compito l’ha superato, mentre l’80% l’ha fallito). E, in definitiva, quando un utente fallisce un compito ha una probabilità di 6 volte maggiore di assegnargli un giudizio inferiore al massimo, rispetto al massimo.

Il merito dell’articolo di Sauro è quello di dare una quantificazione dell’errore di valutazione. Ma comunque la si giri, è evidente che la correlazione fra successo e giudizio (espressione più generale del rapporto fra usabilità reale e usabilità percepita) è tutt’altro che perfetta, soprattutto se includiamo anche i punteggi non estremi.

Come raccogliere i dati di soddisfazione e interpretarli in maniera utile

Tuttavia, ci sono ottime ragioni per continuare a misurare anche la soddisfazione soggettiva. Anzitutto, per valutare se i dati si discostano molto da quelli di Sauro. Inoltre, perché l’usabilità percepita, la soddisfazione, possono aumentare la tolleranza anche verso siti dall’usabilità subottimale. Infine, perché è possibile misurare la soddisfazione in modi vari, in maniera da trarre indicazioni utili al redesign.

Un approccio per “aree di design”

Ad esempio, invece di concentrarsi solo sulla facilità dei singoli task, è utile usare un questionario finale di valutazione generale di vari aspetti del design. Comprendenti domande sulla navigazione, altre sulle funzioni di ricerca, altre sulla grafica, altre sui contenuti e il linguaggio.

Proprio perché sono tutte misure di soddisfazione (e dunque tutte soggette alle medesime distorsioni), è particolarmente interessante notare le differenze interne fra le aree. Se quelle legate alla grafica risultano complessivamente più positive di quelle legate alla navigazione, possiamo avere un chiaro segnale che la navigazione va migliorata.

Interpretare i dati oggettivi attraverso quelli soggettivi

Oltre a questo approccio differenziale per aree, che può servire a dare priorità agli interventi di redesign, evitando di toccare ciò che funziona per concentrarsi su ciò che funziona meno, è anche possibile usare questi risultati per guidare l’interpretazione dei risultati prestazionali del test. Guardando per esempio le valutazioni dei singoli soggetti, è possibile reinterpretare le difficoltà che hanno incontrato durante l’esecuzione, per capire cos’è che li confondeva. Anche qui, particolarmente utile è l’analisi delle differenze: cioè valutare le diverse difficoltà di utenti che hanno dato valutazioni opposte ad un’area, per esempio la navigazione, in base alla loro capacità dimostrata di muoversi fra i menu.

Le valutazioni soggettive sono insomma correlate in maniera imperfetta con le prestazioni, ma, se correttamente raccolte, sono dati utili sia per guidare l’interpretazione dei risultati del test, sia per identificare in maniera rapida le aree del design sulle quali intervenire più tempestivamente. Informazioni che, senza i dati soggettivi (cioè solo con i dati di prestazioni) sarebbe molto più difficile identificare con chiarezza.

Per approfondire

Aggiornamento 2015 Questo e altri argomenti correlati vengono trattati più diffusamente nel corso avanzato: Misurare l’usabilità, disponibile in modalità “in-house” per enti e aziende che lo richiedono, e che affronta i dettagli di metodo nella valutazione dell’esperienza dell’utente con test e questionari.

L’usabilità delle tag cloud

Nel web si sono recentemente diffuse le tag cloud (nuvole di tag), una forma di visualizzazione dei dati che mostra un gruppo di parole (tag: cioè etichette relative ad un argomento) di grandezza differente. Le parole o etichette verbali più usate hanno un font più grande, quelle meno usate un font più piccolo. Lo scopo è dunque quello di pesare la grandezza delle parole in base alla loro frequenza. Oltre alla grandezza, le parole possono essere organizzate alfabeticamente, per similarità semantica, oppure casualmente. Le voci sono di solito link che portano ad un elenco di oggetti collegati a quella voce. Le tag cloud vengono dunque spesso usate come strumenti di navigazione.

Un esempio di tag cloud
La tag cloud dell’autore di questo articolo da delicious.com. In questa visualizzazione i tag sono ordinati alfabeticamente e oltre alla dimensione, viene usato il colore del font per differenziare i tag in base alla frequenza. In pagina sono disponibili controlli per modificare questo ordinamento, per cercare un tag o per modificare il numero di quelli disponibili.

Le parole possono riferirsi a cose diverse: possono essere gli argomenti o categorie usate negli articoli di un sito, oppure le parole che utenti diversi hanno assegnato ad un oggetto, ad esempio una foto. Le tag cloud sono state rese popolari proprio da servizi di User Generated Content (contenuti generati dagli utenti) come Flickr o Delicious. Gli utenti quando salvano o scoprono una risorsa, vi associano dei tag come chiave semantica per un futuro recupero.

I tag possono insomma essere visti esattemente come parole chiave, ma usate in maniera meno sistematica, per nulla gerarchica (anche se questo è un chiaro limite e alcuni servizi iniziano ad offrire un modo per organizzare gerarchicamente i tag) e più casuale.

Una volta assegnati i tag agli oggetti, le nuvole di tag vengono usate per presentarli all’utente quando si vuole ritrovare qualcosa. Il loro uso si è poi esteso su blog e siti in genere. Nonostante il loro ampio utilizzo, solo recentemente si è iniziato a indagare sull’effettiva usabilità delle tag cloud. Sono un buon metodo per ritrovare le informazioni?

Una ricerca sulle tag cloud

Martin Halvey e Mark T. Keane hanno presentato nel 2007 una loro ricerca con sei diversi metodi per presentare elenchi di voci, fra cui le tag cloud. Chiedevano poi agli utenti di trovare e selezionare alcune voci (città europee) in elenchi formati casualmente da una base di dati. Gli elenchi potevano assumere il seguente formato:

  1. Nuvole di tag in ordine alfabetico
  2. Nuvole di tag casualmente ordinati
  3. Elenchi orizzontali alfabetici
  4. Elenchi orizzontali casualmente ordinati
  5. Elenchi verticali alfabetici
  6. Elenchi verticali casualmente ordinati

I pesi alle parole venivano assegnati a caso. Sono stati sottoposti 62 soggetti a 1231 compiti di selezione, e registrati i tempi di esecuzione (i compiti hanno tutti avuto successo). Il risultato peggiore si è registrato proprio per le tag cloud! In realtà tutti i formati di presentazione che presentavano le voci disposte in maniera casuale, presentavano tempi mediamente più alti rispetto a quelli alfabetici. Ma anche fra gli alfabetici le tag cloud portavano a prestazioni peggiori.

Indicazioni meno ovvie sono giunte dall’esame della grandezza dei font nelle parole: sebbene in generale le parole più grandi venivano trovate con maggior facilità, alcuni partecipanti giudicavano complicato trovare parole grandi.

Un altro risultato della ricerca piuttosto interessante riguarda il tempo di selezione di un termine in relazione alla sua posizione. Le parole disposte in alto a sinistra in tutti i formati erano trovate più velocemente, congruentemente con il verso di lettura occidentale. Ma molto rapidi sono stati anche i tempi di ritrovamento di parole poste nell’angolo in basso a destra, o al centro della riga centrale. Questo sembra indicare che tendiamo a scorrere rapidamente gli elenchi o le nuvole di tag, anziché leggerle.

Sono noti anche studi di usabilità (in tedesco, ma vi è un riassunto in inglese in PDF) dove gli utenti giudicano la rappresentazione delle etichette a forma di nube generalmente difficile da comprendere (in particolare chi non è abituato non capisce perché alcune parole siano più grandi di altre) e difficili da usare, caotiche. Chi le conosce può comunque scegliere di usarle per risolvere alcuni tipi di compito particolari.

Tag cloud e formazione di impressioni

Ci sono compiti per i quali le nuvole di tag possono rivelarsi adeguate, anche se esistono comunque strumenti migliori. Rivadeneira e colleghi (2007) hanno studiato le tag cloud come metodo per formarsi un’idea rapida di un contenuto (impression formation). Il colpo d’occhio alla nuvola di tag rende generalmente bene il senso del contenuto o del corpo di contenuti che rappresenta. Per questo genere di compiti si osserva che in effetti le parole più grandi sono notate e ricordate di più, e in generale lo sono di più quelle del quadrante in alto a sinistra della nuvola. Invece le parole attorno alle parole più grandi non vengono ricordate meglio: non pare dunque esserci un effetto di prossimità. Tuttavia un elenco di voci di dimensioni identiche, simile ad un semplice menu di voci, con le più frequenti poste in cima, porta ad una impression formation anche migliore! Non pare esserci dunque una supremazia del tag cloud neanche in questo compito.

In sostanza, le tag cloud sembrano essere un sistema che piace a chi le sa usare, ma caotiche e difficili da capire e da usare per chi non le conosce. Inoltre portano a prestazioni peggiori rispetto a semplici elenchi di voci della stessa dimensione. E’ da preferire un elenco di voci ordinato alfabeticamente per il ritrovamento e la navigazione in elenchi di voci (magari indicando tra parentesi il peso delle voci), mentre un elenco che ponga in cima le voci più importanti è utile per compiti di impression formation.

Una conclusione parziale

Le tag cloud vengono usate sempre di più con vari scopi (per esempio analizzare in maniera rapida un testo, come nel caso di Wordle). Tuttavia non vi sono per ora evidenze che ne supportino l’efficacia come meccanismo di navigazione, di selezione di voci e di impression formation. Resta da capire quanto uno strumento del genere possa fungere da gadget, in un sito, e dunque fornire un elemento di divertimento che possa attrarre alcuni tipi di utenti: non abbiamo dati a riguardo. Anche in quel caso, però, è bene non contare sulla sola tag cloud come meccanismo di navigazione fra i tag.

L’esempio visto nell’immagine sopra tratta da Delicious è emblematico. Anzitutto, la tag cloud non è presentata di default, ma bisogna selezionarla da una serie di link. Nella pagina dedicata, sono poi disponibili molti modi di filtrare e visualizzare i tag. Come dire: una funzionalità avanzata, utile per i più techies degli utenti, ma non in primo piano per l’utenza media.

La discussione qui svolta è necessariamente preliminare e semplificata, in attesa che nuovi esperimenti e nuovi risultati possano offrire alcune indicazioni più precise su quali possano essere i migliori campi di applicazione delle tag cloud.

Card sorting per lo User-Centered Design

Il card sorting è un metodo di classificazione usato spesso nello user-centered design per definire architettura informativa o schema di navigazione di un sito. È un metodo empirico che ha una tradizione molto lunga in campi diversi delle scienze sociali. Vediamo qui, attraverso una serie di domande e risposte, alcuni concetti base per capire meglio i pro e i contro del card sorting, gli strumenti utilizzabili e i pregi e i limiti dello strumento.

Cos’è il card sorting?

È un metodo di coinvolgimento degli utenti per definire raggruppamenti (classificazioni, categorizzazioni) di contenuti. Si scrive ogni contenuto su un cartoncino e si chiede a diversi utenti di classificarli per somiglianza.

Ad ogni gruppo gli utenti possono assegnare un titolo.

Si possono compiere poi diverse analisi sui raggruppamenti ottenuti. Fra queste:

  1. Cluster analysis
  2. Analisi a coppie (pairwise analysis)
  3. Label analysis
  4. Analisi del consenso fra i partecipanti

Queste analisi possono servire a formarsi un quadro più chiaro di come gli utenti immaginano lo spazio concettuale relativo ai contenuti.

Come si definiscono i contenuti da sottoporre a card sorting?

Se il sito è già esistente, si fa un inventario dei contenuti già esistenti o di quelli in previsione.
In caso contrario, i contenuti devono essere definiti attraverso indagini con gli stakeholder. Fra questi, i committenti del sito, gli utilizzatori, gli autori di contenuti.

I metodi che consentono di raccogliere un elenco di contenuti da considerare sono:

  • Free-listing
  • Interviste
  • Focus group

I contenuti raccolti vanno poi confrontati. Contenuti sovrapponibili vengono uniformati e viene formata una lista finale da sottoporre agli utenti.

Quanti contenuti/cartoncini è bene utilizzare?

Sebbene si possano fare card sorting con un numero indefinito di contenuti, è probabilmente bene limitarsi ad un numero fra 50 e 70, più che altro perché oltre questo numero (ma già sopra i 50) il processo di ordinamento diventa lungo e oneroso per gli utenti. Tuttavia non vi sono dei chiari limiti in letteratura. Si tratta di indicazioni empiriche.

Se si parte da un elenco molto numeroso, può dunque essere utile utilizzare soltanto i primi 50 contenuti. In quel caso è necessario procedere ad un ordinamento di importanza.

E cos‘è l’ordinamento di importanza?

L’ordinamento di importanza è un metodo con il quale si chiede a degli utenti di dare un giudizio di importanza (su una scala a intervalli di tipo Likert, da 1 a 5 o da 1 a 7) a ciascuno degli argomenti della lista. I giudizi degli utenti vengono sommati per ogni elemento e i primi 50 elementi per ordine di importanza vengono utilizzati per l’ordinamento finale.

L’ordinamento si fa in sessioni singole o collettive?

Ogni utente deve ordinare da solo i contenuti, ma niente vieta di ospitare più utenti contemporaneamente, su tavoli diversi.

A mano non è una cosa lunga?

Abbastanza. Soprattutto è abbastanza lungo l’inserimento dei dati nel computer per le analisi statistiche. Esistono perciò anche dei software che consentono di automatizzare le operazioni di ordinamento con un’interfaccia grafica, di registrare automaticamente i raggruppamenti e le etichette assegnate ad ogni gruppo dagli utenti e infine di compiere alcune analisi.

Come si fa a trattare poi i dati?

Bisognerebbe riportare in una matrice i gruppi creati e associare ad ogni cartoncino il gruppo in cui è stato inserito per ogni utente.
Un altro modo per trattare i dati è creare matrici di similarità. In sostanza, si considera quante volte a ogni cartoncino è stato inserito in uno stesso gruppo dai diversi utenti. Se due cartoncini sono stati sempre classificati insieme da tutti gli utenti, la loro somiglianza sarà del 100%.

Al contrario, la matrice di dissimilarità assegna valore 0 a elementi molto simili, e valore 1 a elementi molto differenti.

A partire dalla matrice di dissimilarità o di similarità si possono compiere diverse analisi. La più diffusa è l’analisi dei cluster gerarchica (a partire dalla matrice di dissimilarità), ma si possono usare altre tecniche di analisi multivariata che mirano ad estrarre dei fattori comuni latenti che spiegano la variabilità di ordinamento dei cartoncini, cioè i gruppi. Molte tecniche non tengono conto delle etichette creati per i gruppi dai vari utenti, ma creano gruppi simili di oggetti a cui poi lo sperimentatore deve assegnare un nome.

E i titoli che vengono assegnati dagli utenti ai diversi gruppi?

Possono venir utilizzati per analisi ulteriori o per una valutazione esperta. Ad esempio, Donna Maurer, un’esperta di card sorting e autrice (assieme a Todd Warfel) di un ottimo articolo in materia, consiglia di operare una cosiddetta standardizzazione delle categorie. Cioè, può darsi che a gruppi molto simili (che contengono cioè le stesse carte) due utenti diversi abbiano dato nomi differenti. Ma nell’analisi finale queste due classificazioni potrebbero essere sostituite da un’unica etichetta. Questa etichetta potrebbe poi essere usata in un’analisi successiva.

Tuttavia, ancora più interessante è il metodo chiamato label analysis e implementato/ideato da Jorge Toro per il software CardZort. In pratica, per ogni gruppo ottenuto con la cluster analysis, il software presenta una serie di etichette con una percentuale che rappresenta quanto quell’etichetta sia coerente con quel gruppo di voci. In pratica, se nel gruppo che stiamo esaminando tutte le voci sono state etichettate in quel modo, l’adeguatezza è del 100%. Altre voci possono essere associate al gruppo con coerenza minore. Spetta poi al ricercatore giudicare le diverse etichette usate per quelle voci e scegliere una sintesi adeguata che rappresenti al meglio il gruppo.

Ho sentito parlare di card sorting aperto e chiuso. Di che si tratta?

  • Nel card sorting aperto caso l’utente è libero di classificare le voci in quanti gruppi ritiene opportuno ed etichettarli a piacere. Così otteniamo informazioni sulle rappresentazioni mentali “spontanee” dell’utente.
  • Nel card sorting chiuso l’utente è chiamato a inserire le voci in alcune categorie prestabilite. Spesso si legge che questo metodo consente non di creare la classificazione ma di verificarne (o validarne) una esistente. Tuttavia Donna Maurer sottolinea che l’unica cosa che consente di verificare una classificazione esistente è chiedere a degli utenti di trovare cose usando quella classificazione e che dunque il card sorting chiuso sarebbe inutile. O meglio, servirebbe solo quando l’obiettivo è costruire una classificazione il cui scopo sarebbe quello di supportare dei compiti di classificazione. Ad esempio: dove inserirebbero la propria pagina alcuni autori di un’intranet?

Quando va eseguito il card sorting durante la progettazione di un sito?

Va eseguito prima della definizione dell’architettura informativa o degli schemi di navigazione del sito durante il processo di design.

Come si possono leggere e visualizzare i risultati? Non dovrò mica leggere matrici con numeri in percentuale?

Volendo sì. Altrimenti si possono usare dei grafici ad albero (dendrogrammi), o delle heat map.

esempio di grafico ad albero prodotto da un card sorting
Nell’immagine un esempio di dendrogramma derivato da un card sorting sugli articoli di questo sito. A seconda della soglia di correlazione scelta (riga rossa nell’immagine) vengono formati gruppi di articoli più o meno somiglianti, rappresentati dalle strisce colorate orizzontali

Nei dendrogrammi normalmente è possibile decidere una o più soglie di correlazione fra le voci, e determinare così dei gruppi, che sarebbero diversi se cambiassimo la soglia di correlazione. Meno sono somiglianti i gruppi, meno essi saranno numerosi e composti da un maggior numero di voci, e viceversa.

La scelta della soglia di correlazione spesso è oggetto di prove e di errori.

Che fare con i cartoncini che non possono essere classificati o che non risultano appartenere ad alcun gruppo?

Il mio consiglio è di non associarli fra loro: si tratta di voci singole, particolari, da mantenere isolate dal resto. Talvolta significa che quelle voci sono di natura diversa dal resto del corpus. Se si sta costruendo uno schema di navigazione, allora queste voci andrebbero fatte emergere a parte.

Cosa si può fare con i risultati del card sorting?

Spesso si dice che i risultati servono a definire l’architettura informativa o il sistema di navigazione. Ma questi due concetti non sono sovrapponibili.
L’architettura dell’informazione è il modo in cui il sito stabilisce delle relazioni fra i contenuti. Queste relazioni possono anche essere latenti, per esempio rappresentate con metadati invisibili all’utente (ma sensati per altri scopi).

Il sistema di navigazione invece è l’elenco delle voci che compongono uno o più menu di un sito. Un menu non corrisponde necessariamente all’albero o alla struttura di un sito. Ad esempio, un sito può essere organizzato per tipologie (saggi, articoli, interviste, recensioni), e una categorizzazione per argomenti può attraversare tutte le tipologie. Una categorizzazione per faccette per esempio non si sovrappone mai alla struttura logica del sito.
Struttura, categorizzazione e navigazione non sono la stessa cosa. Così non lo è l’architettura.

Il card sorting può aiutare ad esplorare o definire uno o più di questi strumenti concettuali. Può cioè essere usato per capire un modo latente di assegnare metadati ai contenuti, o per definire un menu di navigazione, o una struttura logica. Dipende dal progetto. L’importante è essere consapevoli dello scopo.

Inoltre il card sorting raramente può venir automaticamente tradotto in una qualsiasi delle strutture concettuali appena citate. Spesso l’output di un card sorting deve venir analizzato e adattato da un ricercatore, ma è un punto di partenza più vicino al mondo mentale dell’utente di quello che si otterrebbe facendo decidere agli esperti.

Quanti utenti sono necessari per ottenere risultati affidabili?

Secondo una ricerca1 del 2004, con 30 utenti si ottengono risultati affidabili al 95%. Nielsen consiglia 15 utenti per i progetti più comuni, che portano ad un’affidabilità del 90%, più che sufficiente. Non è stata però esplorata la relazione fra il numero di cartoncini e il numero di utenti.

Ma il card sorting funziona davvero?

Dipende. Devono essere rispettati alcuni criteri. In particolare, gli utenti devono capire il significato delle voci, e dovrebbero essere capaci di esplicitare i loro criteri di classificazione. Ci sono casi in cui questo si verifica e altri no. Meglio gli utenti conoscono un argomento, più è probabile che i requisiti siano rispettati. In ogni caso, usare un metodo come questo, empirico, consente anche di esplorare eventuali problemi legati al contenuto e al modo in cui gli utenti lo vedono, perciò è spesso consigliato, soprattutto se si hanno facilmente a disposizione gli utenti come nel caso di intranet o di applicazioni a dominio controllato o chiuso: call center, sistemi di faq, ecc. In questi ultimi casi, è particolarmente importante che lo schema di categorizzazione corrisponda al mondo mentale degli utenti, visto che dovranno quotidianamente lavorarci.

In quali progetti è meglio usare il card sorting?

Io li ho trovati particolarmente utili nella progettazione di ambienti chiusi, come intranet o call center che si appoggino a basi di dati da sfogliare, come detto. Ma anche in ambienti dai domini complessi per cui non esiste un metodo di classificazione condiviso.

Può essere utile anche per valutare distanze fra categorizzazioni esistenti e categorizzazioni dal basso, cioè costruite dagli utenti.

Inoltre di particolare utilità è usare il metodo per valutare quanto sono disperse queste classificazioni fra diversi utenti, o, in alternativa, quali singole voci sono più disperse. In pratica, di quali voci gli utenti fatichino a dare una collocazione univoca. Questo dà indicazioni utili su possibili criteri alternativi (ad esempio, uso di faccette) nella classificazione di alcuni elementi del corpo dei contenuti.

Quanto costa fare un card sorting?

Be’, dipende. Tenete conto che i costi principali sono quelli del reclutamento degli utenti e il tempo perso a condurre le sessioni di ordinamento. Poi, se dovete inserire i dati a mano nel computer, i tempi si allungano ancora. Ma se utilizzate dei software fin dall’inizio (questa ricerca di Bussolon, Del Missier e Russi, 108KB, in pdf, indica che c‘è un buon grado di somiglianza fra i due metodi), i tempi si accorciano molto. Il tempo per l’analisi dei dati dipende più che altro dalla vostra familiarità con il metodo.

Piuttosto che dare cifre, è bene dire che in un tempo che va dai 2 ai 5 giorni è normalmente possibile concludere un card sorting. I tempi possono naturalmente allungarsi in casi particolari, e spesso le giornate non riescono ad essere consecutive, il che complica sia la pianificazione che il budget. Ma questo si può dire praticamente di qualunque attività progettuale…

Quali software esistono per eseguire più rapidamente il card sorting?

Molti, come si può vedere da alcune risorse disponibili in rete. Esistono anche tool online, come websort o netsorting dell’italiano Stefano Bussolon (che li ha usati per progetti specifici descritti anche nel sito). Fra i tool da scrivania, invece, esiste un tool sviluppato da IBM e che è probabilmente il più famoso, EZSort. Però ha alcuni bachi (ogni tanto si chiude improvvisamente) e limiti nel numero di cartoncini. Ma, soprattutto, non è più supportato. Ne è ancora disponibile una copia su webarchive.

Qui parlo di quelli che ho usato più di recente e che secondo me sono i migliori per il mondo Mac e per il mondo Windows.

Per il mondo Windows: CardZort

Attualmente per Windows il migliore (sebbene non esente da bachi e piccoli problemi che possono anche diventare fastidiosi, specie nei primi utilizzi) è probabilmente CardZort, un tool a pagamento (150 dollari per computer) scritto da Jorge Toro per la sua tesi di dottorato e che però soffre di una tipologia di licenza molto vincolante (legata alla macchina: se cambiate computer perdete il programma!…). Consente una facile costruzione del set e un’agile esecuzione da parte degli utenti, anche se non offre la possibilità di creare sottogruppi.

Il pregio maggiore è probabilmente il fatto di essere l’unico software attualmente noto a compiere anche la label analysis, secondo un algoritmo ideato dallo stesso autore, che fornisce indicazioni di grande utilità per una prima valutazione dei termini usati dagli utenti.

Per il mondo Mac: xSort

Per il mondo Mac è molto convincente (e di usabilità nettamente superiore a tutti gli altri) xSort, un tool anch’esso a pagamento sviluppato da iPragma (licenze convenienti, a partire da 29 euro aggiunta di ottobre 2008: il software è ora gratuito!) che consente la creazione di veri e propri set sperimentali, con definizione di gruppi di utenti (in modo da analizzare rapidamente le differenze di classificazione, poniamo, fra maschi e femmine, o fra giovani e anziani), la possibilità di creare tramite drag & drop quanti gruppi si vuole e organizzarli anche in sottogruppi. Interessante anche la possibilità di generare in automatico sia analisi che report multipli (questi ultimi però solo in inglese). Se includesse anche una funzione per la label analysis sarebbe un tool perfetto.

Se usati da operatori esperti, questi strumenti automatizzano il lavoro e consentono di compiere analisi e confronti molto rapidamente, ma sono divertenti anche per i principianti, perché consentono di sperimentare la tecnica. Sarebbe però utile un tool che unisse i pregi di entrambi quelli citati. Attualmente dovete invece decidere quale operazione vi serve di più e usare il tool più appropriato, a meno di non convertire i dati (xSort ha una feature di importazione di dati in XML, ma cardZort usa un formato diverso, perciò dovrete lavorarci a mano o scrivere un’utility di conversione).

E se volessi analizzare i dati a mano?

È possibile farlo, ma è bene conoscere alcune basi statistiche che riguardano la correlazione fra variabili nominali. Joe Lamantia ha predisposto un file excel, con un articolo di istruzioni sull’uso. Donna Maurer ne ha proposto un’altro. Il metodo è comunque un po’ macchinoso e a mio parere suscettibile di errori, proprio a causa dell’inserimento manuale ripetuto. Personalmente lo consiglio solo ad esperti che vogliono compiere analisi raffinate.
Per gli altri, è meglio forse usare un software fra quelli disponibili, che generano facilmente dei dendrogrammi, i grafici che consentono di comunicare meglio i risultati anche al management.

Alcuni link utili

1 Tullis, T., and Wood, L. (2004), “How Many Users Are Enough for a Card-Sorting Study?” Proceedings UPA’2004 (Minneapolis, MN, June 7-11, 2004). ^

Dati oggettivi e soggettivi e valutazioni manuali di accessibilità

Per affrontare la valutazioni di accessibilità di un sito è
necessario chiarire alcuni concetti circa la natura
dei dati e dei loro modi di raccolta, per evitare di riferirsi
in maniera impropria ai diversi metodi di analisi e di trattare
i dati con strumenti statistici o concettuali impropri.

Le distinzioni rilevanti sono 3:

  1. Dati oggettivi/soggettivi
  2. Dati quantitativi/qualitativi
  3. Valutazioni automatiche/Manuali

Dati oggettivi e dati soggettivi

La distinzione fra dati oggettivi e soggettivi può essere così
riassunta:

Dati oggettivi
Sono esterni alla mente dell’osservatore, esistono indipendentemente
da lui, e hanno un alto grado di interosservabilità.
Il che significa che diversi osservatori nelle medesime condizioni osservano
lo stesso dato.

Un alto grado di interosservabilità non significa un grado assoluto:
infatti le caratteristiche dell’osservatore contano, eccome: ad esempio
un cieco non può osservare un colore, che invece è interosservabile
per vedenti non daltonici, ed è al contempo misurabile sulla
base di strumenti come i colorimetri. Il fatto che daltonici o ciechi
non siano in grado di confermare l’osservazione del colore, non significa
che il dato (la luce riflessa dalla superfice in questione) non sia oggettivo,
ma che non è univoca la sua percezione. Il che non rende il dato
meno oggettivo. Semplicemente, come tutti i dati, la sua percezione dipende
dalle caratteristiche dell’osservatore, e di queste bisogna tener conto nelle analisi. Il che apre una parentesi filosofica e metodologica
che è fuori dagli scopi del presente articolo.

Dati soggettivi
Derivano da giudizi e opinioni, e non da misure od osservazioni esterne.
I dati soggettivi non esistono senza quell’osservatore, non sono interosservabili.
Ad esempio, il giudizio su un film è soggettivo. Anche se altri
spettatori possono dare giudizi simili, ogni giudizio è personale
e almeno in parte differente. I giudizi soggettivi di un gran numero
di soggetti possono essere raggruppati e classificati, ma essi si riferiscono
ciascuno al vissuto di un singolo soggetto, e non esisterebbero senza
di esso.

Dati quantitativi e qualitativi

Dati quantitativi
Quando, all’interno di un insieme di osservazioni, ogni singola osservazione
è un numero che rappresenta una grandezza o una quantità.
Ad essere quantitativo o qualitativo è
il dato della singola osservazione.
Ad esempio, il tempo di esecuzione di un compito o il numero
di errori commessi in una prova sono dati quantitativi. I dati
quantitativi sono sempre numeri, e rappresentano grandezze e
quantità
.
Dati qualitativi
Quando, all’interno di un insieme di osservazioni, ogni singola osservazione
è una parola, una frase, una descrizione o un codice che rappresenta
una categoria
. Ad esempio, un giudizio di tipo "mi piace/non mi
piace" è un dato qualitativo, come lo è l’appartenenza
ad una categoria merceologica di un prodotto, o la collocazione di un’azienda
in un settore (telecomunicazioni, piuttosto che commercio estero). La
cosa importante è che conta la natura del singolo dato, e non
di un insieme di dati. Ad esempio, possiamo ben sommare il numero di
aziende che appartengono al settore delle telecomunicazioni e quello
delle aziende del settore commercio estero. I dati così ricavati
sono quantitativi, e come tali possono essere trattati, ma le singole
osservazioni rimangono qualitative.

Su dati quantitativi e qualitativi non è lecito condurre lo stesso tipo di elaborazioni statistiche e di trattamenti. Una panoramica delle operazioni che è possibile eseguire
su questi dati ci obbligherebbe a parlare di scale di misura, argomento
che è fuori dagli scopi di questo articolo ma che è reperibile
in qualunque manuale di tecniche di analisi dei dati.

Rapporto fra le dicotomie

Spesso si sovrappongono i dati oggettivi con i dati quantitativi, e
i dati soggettivi con i dati qualitativi, ma tale sovrapposizione è
errata. Un dato può benissimo, infatti, essere oggettivo e quantitativo,
o ugualmente oggettivo, ma qualitativo. Esistono tutti i tipi di incroci
fra queste due categorie, come elenchiamo qui sotto:

dato oggettivo – quantitativo:
Il tempo di esecuzione, il numero di errori, la percentuale di successo,
ecc.
dato oggettivo – qualitativo:
La risposta alla domanda: "il colore è usato per veicolare
informazioni sui dati?". In precisi contesti la risposta non può
che essere sì o no, qualitativa, e assolutamente oggettiva. Molti
dei check-point delle wcag 1.0 per le valutazioni di accessibilità
rientrano in questa categoria. Un altro esempio è se è
chiarita o meno la lingua principale di un documento.
dato soggettivo – quantitativo:
Un tipico esempio è una scala di valutazione da 1 a 5 o da
1 a 7 circa una caratteristica del sito, o il voto assegnato ad un compito.
Per quanto ci si sforzi di essere obiettivi, valutatori (o insegnanti)
diversi daranno giudizi o voti almeno in parte differenti. I giudizi
sono soggettivi, e i dati di tipo quantitativo.
dato soggettivo – qualitativo:
L’assegnazione di attributi specifici ad un sito, a una persona,
a qualunque aspetto. Ad esempio, si può scegliere una serie di
aggettivi per identificare un sito (professionale, tecnologico, amichevole…),
o la categoria di appartenenza (e-commerce, informativo, educativo,
ecc.). Un altro esempio è il giudizio dell’equivalenza testuale
di un attributo alt in un’immagine. In molti casi il giudizio di equivalenza
è oggettivo, ma in altri è soggettivo, e dipende dall’interpretazione
del ruolo funzionale di quell’immagine in un certo contesto e in riferimento
ad un determinato scopo.

Valutazioni automatiche e manuali

Chiarita la differenza fra dati oggettivi e soggettivi e fra dati quantitativi
e qualitativi, e i rapporti fra le due categorie, passiamo a considerare
la maniera in cui i dati possono essere raccolti. In relazione ai giudizi
su un sito, possiamo distinguere fra dati forniti da strumenti automatici
e dati forniti da valutazioni manuali, o da giudizi umani. La terminologia
qui non è univoca, ma è bene chiarirsi sul concetto.

Valutazione automatica
Una misura o una stima fornita esclusivamente da uno strumento automatico,
nel nostro caso un programma, un algoritmo, che ci dice se una certa
condizione è rispettata o meno.
Un esempio sono i validatori di codice. Un validatore riceve una url, e restituisce in output la validità o meno dell codice rispetto ad una grammatica formale pubblicata. Il dato prodotto è immediatamente disponibile
per un uso univoco. È per definizione oggettivo, ma può essere tanto qualitativo che quantitativo.
Valutazioni manuali
Tutte quelle misurazioni che non possono essere demandate esclusivamente
alla macchina, ma che hanno bisogno di una valutazione umana. A volte una macchina o un algoritmo possono essere utilizzati
per questa valutazione: ma l’output ha bosogno di interpretazione, valutazione da parte di un umano con un certo grado di competenza, perché
l’output automatico da solo non è immediatamente applicabile o comprensibile o univoco.
Tra le valutazioni manuali ci sono anche le analisi esperte e persino i test di usabilità, che richiedono la partecipazione di utenti e di valutatori umani per definizione. In queste circostanze si possono raccogliere dati di tutti i tipi: quantitativi, qualitativi, soggettivi ed oggettivi.

Valutare secondo le wcag 1.0

Queste brevi distinzioni, lungi dall’essere solo teoria, entrano in
gioco nel momento in cui dobbiamo iniziare una valutazione secondo i chekpoint
delle linee guida del w3c
per l’accessibilità, versione 1.0.

L’aderenza o meno di un sito ai criteri di accessibiiltà si decide
in pratica proprio in riferimento ai check-point, che sono organizzati
in priorità A, AA, AAA. Per ogni checkpoint è sono previste
tre possibili condizioni: Sì, No, Non applicabile. Queste valutazioni
sui checkpoint di che tipo sono? Manuali o automatiche? Soggettive o oggettive?
Quantitative o qualitative?

Solo valutazioni qualitative

Quel che senza dubbio possiamo dire è che tutte queste valutazioni
sui check point sono di tipo qualitativo
, per il
modo in cui sono formulati. Un check point non potrà mai, infatti,
essere rispettato "in parte": non è previsto. Se si applica,
allora può solo essere rispettato o violato. La valutazione è
qualitativa, di tipo si/no. Il check-point funge da criterio qualitativo.

Questo modo di valutare l’accessibilità ha i suoi
limiti. Ad esempio, una pagina che è costruita secondo tutti i
crismi dell’accessibilità, ma in cui ci si è dimenticati
di inserire un alt text, viola il corrispondente check-point (1.1) esattamente
come una pagina costruita con tutte le immagini senza
alt. È ingiusto? Certamente sì, e questo vale anche per
tutti gli altri criteri. È indubbio che una dimenticanza non sia equivalente a non aver nemmeno provato a rendere
accessibili le immagini.

Ma se per ogni
check-point dovessimo stabilite un grado di soddisfacimento (facendo diventare
la valutazione quantitativa) avremmo, sì, dati più precisi,
ma anche valutazioni molto più complesse, al limite dell’impraticabilità.
Che senso avrebbe dire "questa pagina rispetta il check point all’80%",
perché magari 8 immagini su 10 hanno un corretto alt text, e due
non ce l’hanno? L’obiettivo è giungere ad una piena accessibilità,
dunque il check point non risulta soddisfatto.

Abbiamo parlato degli equivalenti testuali per le immagini (in realtà
per ogni elemento che lo richiede…). Il criterio è di tipo soggettivo, e la valutazione manuale. Richiede
infatti una valutazione esperta che consideri, sulla base di considerazioni
complesse, se l’equivalente testuale è effettivamente equivalente
al contenuto dell’immagine. Se in alcuni casi la valutazione può
essere uniformata da un criterio chiaro, ci sono casi in cui non è
facile distinguere quando un testo è equivalente alla funzione
(ad esempio nei grafici, o in alcune immagini esplicative, o esemplificative).
Entrano in gioco criteri di comprensibilità, e il discorso si complica
di nuovo. Senza considerare che l’alt, benché sempre richiesto
per alcuni elementi, non è l’unico modo che abbiamo a disposizione
per fornire un equivalente testuale. E dobbiamo valutare quali altri metodi
possano essere appropriati alla situazione.

Nel caso del check-point 1.1, abbiamo dunque una valutazione soggettiva
e manuale (che può però essere coadiuvata da un software
che ci aiuti a cercare gli elementi su cui verificare l’alt) su un dato
di tipo qualitativo.

Un altro esempio

Il check-point 2.1 recita: "Assicurarsi che tutte le informazioni
veicolate con il colore siano anche disponibili senza il colore, ad esempio
attraverso il contesto o il markup"

Sebbene questa possa sembrare una regola arbitraria, essa è invece
oggettiva. Anzitutto bisogna verificare: ci sono informazioni veicolate
attraverso il colore? Quelle informazioni sono veicolate anche attraverso
un testo o il markup? Questo è sempre verificabile (anche se il
significato delle informazioni necessita di una valutazione umana). Il
check-point è oggettivo e manuale, perché non si può
decidere in maniera automatica. Difficilmente un tool automatico potrà
anche essere usato per identificare luoghi di informazione veicolati con
il colore. Se interpretiamo in maniera chiara il concetto di "informazione",
non dovrebbe esistere nessuna situazione in cui l’applicazione del check-point
sia dubbia.

Un caso complicato

Il check-point 4.1 dice: "Identificare chiaramente i cambiamenti
nel linguaggio naturale del testo nel documento e nei testi equivalenti
(ad esempio nelle didascalie)."

Qui i problemi sono molteplici. Bisogna identificare in maniera univoca
a quali testi si applica la regola. Ad esempio, gli alt text sono interessati?
Come vanno trattati? Se si identifica in maniera univoca il testo interessato,
bisogna poi identificare quando occorrono i cambiamenti del linguaggio
naturale. Quali parole si possono considerare straniere fra quelle che
sono ormai entrate in uso comune?

A questi problemi si aggiungono i problemi di implementazione pratica
di questa regola. Infatti, se identifichiamo ogni cambio di linguaggio,
alcuni screen reader, purtroppo anche diffusi come Jaws, devono cambiare
motore di rendering vocale, il che comporta un improvviso rallentamento
del corretto funzionamento, per leggere poche parole e poi cambiar di
nuovo rendering vocale. Diversi non vedenti hanno espresso il desiderio
di non vedere rispettata questa regola, perché crea loro molto
disagio.

Quest’ultima considerazione ci porta verso un territorio della valutazione
che non abbiamo fin qui considerato. Si tratta di un’ulteriore articolazione
delle valutazioni manuali.

Le valutazioni manuali nel dettaglio

Riassumendo, infatti, le valutazioni manuali possono essere di due tipi:

  1. Valutazioni di esperti (sia disabili che non disabili)
  2. Osservazioni del comportamento di utenti non esperti, disabili e
    non.

Il primo tipo di valutazione è quella di cui abbiamo parlato di
fatto fin qui quando abbiamo parlato di valutazioni manuali, o di human
check.

Le seconde sono invece osservazioni di utenti reali monitorate da esperti,
in tutto e per tutto simili ai test di usabilità. In un’ottica di accessibilità possono avere molteplici ruoli:

  1. Servire a valutare in generale l’efficacia, l’efficienza e la soddisfazione
    di un sito per quegli specifici utenti, che si presumono rappresentativi
    di un gruppo più ampio
  2. Servire a valutare l’efficacia o l’adeguatezza di una specifica pratica (ad
    esempio il cambio di linguaggio)
  3. Consentire di valutare soggettivamente il rispetto di un check-point non oggettivamente
    controllabile, come complemento di valutazioni esperte

Si tratta di casi differenti. Il primo caso è in tutto equivalente
ad un test di usabilità, ma può essere condotto per valutare
complessivamente il sito e per compararne le prestazioni fra gruppi differenti.
Ad esempio, come lo usano ciechi e vedenti. O ciechi, vedenti e ipovedenti
(semplificando molto).

Nel secondo caso, il risultato può anche rivelare l’inadeguatezza
del check-point: il cambio di linguaggio, quando rispettato, crea problemi
agli utenti. Questo devrebbe portare al ripensamento del criterio sotteso
dal check-point.

Nel terzo caso il test serve a decidere se un check-point è effettivamente
rispettato. Dunque la valutazione del check-point in quel caso viene demandata
non più solo ad un valutatore, ma ad un valutatore che osserva il comportamento
di soggetti che sono utenti interessati
.

Le valutazioni manuali dunque possono essere di diversi tipi, e a volte
possono anche servire a dimostrare la scorrettezza del check-point
. I
test con utenti anche in questo caso si rivelano degli strumenti in grado
di aumentare la conoscenza, cioè sono strumenti evolutivi: in quel
caso bisogna attivare una procedura di segnalazione che porti ad una discussione
negli ambiti competenti (wcag-wg, governo), che la dovrebbero pertanto
prevedere (il w3c ad esempio lo fa, consentendo la discussione in
liste che sono anche rese pubbliche).

Fonti di errore

Quando si valuta l’accessibilità secondo queste modalità
(requisiti, criteri, check point di tipo qualitativo), gli errori possono
verificarsi in diversi momenti:

  1. Nel momento in cui si deve decidere se il criterio si deve applicare
    al nostro caso o no. Potrebbe darsi che sbagliamo la valutazione, e
    decidiamo che non dobbiamo applicare quel criterio quando invece si
    deve applicare, e viceversa.
  2. La decisione di considerare il criterio rispettato o meno. Ovvero
    la valutazione vera e propria nel merito del criterio. Questa valutazione
    sarà tanto più a rischio d’errore quanto più soggettiva
    essa sarà. Per renderla meno soggettiva l’unica strada è
    definire in maniera sempre più precisa il criterio. Ad esempio
    attraverso una serie di tecniche o di linee guida sulla sua valutazione
    e applicazione.

Conclusioni

In definitiva, abbiamo visto che:

  1. L’accessibilità necessita di valutazioni umane
  2. L’accessibilità, per come viene valutata nelle wcag, non è
    mai quantitativa, ma qualitativa
  3. E’ composta da una serie di controlli indipendenti, che sono a volte
    oggettivi a volte soggettivi
  4. Ognuno di questi controlli riguarda il rispetto o meno di un criterio.
    Dalla definizione più o meno stringente e rigorosa del criterio
    dipende l’oggettività
  5. Il criterio può anche essere sbagliato
  6. Gli organismi che stabiliscono i criteri devono prevedere canali pubblici
    per la segnalazione e le ridiscussioni degli eventuali errori o criteri
    controversi

Fonti di errore sono:

  1. La decisione di applicare o meno il criterio
  2. La decisione di considerare rispettato il criterio quando si è
    deciso che si applica.

Altri rischi sono costituiti dal fatto che i criteri siano troppo
severi su aspetti marginali
, e poco severi su aspetti
importanti nel mondo reale
. Questo conferma che ci dev’essere
un continuo monitoraggio e una revisione dei criteri. I quali non devono
perciò essere calati dall’alto, o rifarsi a norme che magari hanno
poco a vedere con le problematiche dell’accessibilità, ma verificati
nel mondo reale.

Dobbiamo anche considerare che il numero dei criteri rispettati può
essere sommato, e si può ad esempio trarre un numero o una percentuale
di criteri soddisfatti sul totale che si applica al nostro caso. Si tratta
però di una stima rozza. Alcuni criteri sono più importanti
di altri, e una stima numerica di tipo quantitativo non ne rende conto.
Bene ha fatto il WAI a decidere di non contare ma di categorizzare i check-point
dividendoli in tre categorie di importanza. In ogni categoria tutti devono
essere rispettati per poter dichiarare la conformità.

Una categorizzazione alternativa

Un’altra categorizzazione sarebbe possibile, e forse in alcuni casi utile:
quella per tipologia di utenza servita.

Sarebbe così possibile almeno stabilire non se un sito è
accessibile o meno, ma per quale categoria di utenti è accessibile
o meno. Ad esempio:

  • Non vedenti
  • Ipovedenti senza disturbi del colore
  • Ipovedenti con disturbi del colore
  • Sordi
  • Disabili motori gravi
  • Disabili motori lievi (cervelletto, disfunzionalità parziali…)
  • Utenti di tecnologie minoritarie e/o obsolete
  • Utenti con disturbi di apprendimento
  • Utenti con disabilità cognitive congenite
  • Utenti con scarsa competenza di dominio
  • Utenti con scarsa alfabetizzazione informatica

In questo modo un sito potrebbe decidere quali categorie di utenti sono
più importanti rispetto al costo di assolvimento degli obblighi
di accessibilità, e potrebbe esibire una dichiarazione articolata,
invece del bollino. Il rischio di una scelta di questo tipo è naturalmente
quella di privilegiare alcuni utenti e di discriminarne altri in maniera
arbitraria o, peggio, sulla base delle risorse economiche necessarie ad
ottenere la conformità. Così le pratiche più economiche
verrebbero rispettate a prescindere dalla percentuale di utenti interessati,
le altre no.

Questa classificazione, però, può esser utile in fase di
progettazione del sito e di autovalutazione, perché semplifica
e categorizza i problemi. Aiuta ad identificare scenari di uso. E’ possibile
così non chiedersi genericamente "il mio sito è accessibile?",
ma piuttosto "i ciechi hanno difficoltà ad usare il mio sito?
E quali?". E poi: "Gli ipovedenti hanno difficoltà ad
usare il mio sito? Quali?", e così via per ogni categoria.
Questo sistema ha il merito di rimanere focalizzato sulle problematiche
di utenti specifici, piuttosto che su criteri astratti, e consente di
orientare la progettazione alla risoluzione dei problemi più comuni,
rendendo più probabile il superamento delle successive valutazioni.

Cosa sono i test di usabilità

Una delle difficoltà più sorprendenti per chi si occupa di consulenze di usabilità è quella di vedersi sempre più spesso chiedere cosa siano e a cosa servano i test di usabilità. E' evidente che se un cliente non conosce uno strumento, non lo può apprezzare, né comprare. Si è fatta troppa poca comunicazione e troppa confusione su cosa siano questi test. Proviamo in questo articolo a fare un po' di chiarezza e a puntualizzare cosa sono, a cosa servono e, almeno a grandi linee, come si fanno i test di usabilità, per capire quali siano i vantaggi e gli svantaggi dei diversi modi con cui si possono applicare all'usabilità dei siti web.

Un insieme di metodologie

Anzitutto è bene precisare che i test di usabilità sono un insieme di metodologie. Soprattutto negli ultimi anni, con l'avvento dell'usabilità sul web, non è bene pensare al test come ad una tecnica che si applica in un modo solo, all'interno di una precisa cornice teorica e di un unico paradigma sperimentale. E' più corretto dire che si tratta di una famiglia di tecniche, che peraltro sono la vera ragion d'essere e il punto di forza dell'usabilità rispetto ad altre discipline. Il compito dei test è studiare il comportamento degli utenti reali alle prese con prodotti reali (i siti) o con loro prototipi, con due obiettivi:

  1. Identificare criticità e colli di bottiglia dell'interfaccia, per poterli correggere in fase di design
  2. Capire come l'utente si muove e ragiona, e dunque quali sono le ragioni di eventuali difficoltà, per tenerne conto nella fase di progettazione.

I test prevedono che ogni utente venga osservato individualmente, e non in situazioni di gruppo, e che i compiti che esegue siano gli stessi per ogni utente che partecipa al test. Questo è ciò che accomuna le diverse tecniche. Tutto il resto cambia a seconda dei vincoli di ogni progetto. Per capirci, affronteremo due diverse varianti, per concludere poi con un metodo di osservazione totalmente ecologico, privo dei vincoli dei primi due metodi, ma che proprio per questo ha applicabilità limitata.

Il test sperimentale

Quella sperimentale è la metodologia più completa e rigorosa con la quale si possa affrontare il test. E' caratterizzata da una lunga fase di progettazione e definizione teorica, durante la quale si progetta un disegno sperimentale vero e proprio. Non è possibile in questo articolo entrare nei dettagli, ma possiamo riassumere così i requisiti:

  1. Identificazione di tutte le variabili coinvolte nell'interazione fra utente e sito. Tipicamente, esse riguardano alcuni assunti sulle persone che verranno testate, che devono appartenere ad una stesso gruppo, ma anche assunti sulle caratteristiche dell'interfaccia, di ciò che può variare e che può incidere sulla prestazione
  2. Reclutamento dei soggetti su base campionaria: identificata la popolazione scelta, bisogna estrarre da essa un campione di persone che dia ragione dell'intera popolazione, anche cioè di coloro che non possiamo testare direttamente. I soggetti vengono divisi in gruppi statisticamente equivalenti, ad ognuno dei quali verrà sottoposta una delle condizioni sperimentali che si intendono confrontare (interfaccia A e interfaccia B, a parità di ogni altra situazione, per esempio).
  3. Presenza di precise ipotesi sperimentali. Il test è un vero e proprio esperimento scientifico dove attraverso il controllo delle variabili coinvolte si prova a falsificare una certa ipotesi (per esempio che l'interfaccia A sia ugualmente efficace dell'interfaccia B, per quella data popolazione)
  4. Misurazione rigorosa dei dati sperimentali, con eventuale registrazione della prestazione su videotape. Vengono raccolti i dati rilevanti per la misura della variabile che vogliamo controllare (numero di errori, per esempio, o numero di click, o tempo di esecuzione, eccetera)
  5. Analisi statistica dei dati. i dati raccolti vengono analizzati e corretti secondo opportune tecniche statistiche. Al termine una formula matematica ci dirà se, al netto di tutto ciò che siamo riusciti a controllare, un gruppo avrà ottenuto o meno una prestazione significativamente migliore di un'altra, oppure no. Non solo: ci dirà anche con quale grado di probabilità quella differenza (o quella mancata differenza) sia attribuibile al caso, oppure alle variabili che abbiamo controllato

Questo tipo di metodologia richiede un numero molto alto di soggetti. Ogni gruppo deve andare da un minimo di 12-15 soggetti fino ad un ideale di 25-30. Moltiplicato per il numero di gruppi (di solito almeno due, a meno di usare un disegno pre-post, raro nell'usabilità), si fa presto a calcolare il costo e i rischi di una tale metodologia. Per di più, questa tecnica consente di valutare soprattutto una variabile precisa: quella che differenzia A da B. Lo fa con un alto grado di attendibilità, ma non è quel che di solito serve in un progetto web. Il rapporto benefici/costi è decisamente sbilanciato a favore dei costi. Tale tecnica è indispensabile per verificare e far evolvere modelli concettuali e teorici. Non altrettanto per un progetto web.

Il test semplificato

In questa metodologia, lo scopo è ottenere indicazioni su possibili elementi dell'interfaccia che ostacolino il corretto svolgimento dei compiti da parte dell'utente medio o di un target più preciso di utenti (a seconda del progetto). E' una versione metodologicamente semplificata del set sperimentale visto sopra. Ciò che occorre per condurre questo test è:

  1. Un'interfaccia almeno semi-funzionante del sito o dei bozzetti di lavoro
  2. Una serie di compiti significativi da somministrare ai partecipanti
  3. Una sede comoda, in cui non venir disturbati, con un computer e una connessione dello stesso livello di quelle che usano gli utenti tipici
  4. Un numero di utenti variabile da 3 a 8 per ogni gruppo relativamente omogeneo di utenti, da convocare uno alla volta.
  5. Un osservatore esperto che conduca il test mettendo a proprio agio le persone senza influenzarne la prestazione, e che sia in grado di annotare errori e osservazioni in tempo reale, traendo il massimo dai soggetti coinvolti

Eventualmente è possibile registrare o audioregistrare la seduta. La presenza di una telecamera può mettere a disagio l'utente e non è sempre consigliata. L'audioregistrazione è invece indispensabile quando si utilizza, all'interno di questa metodologia, la tecnica del pensare ad alta voce (Thinking aloud), usata in ambito clinico e pedagogico con diverse funzioni, fra cui quella di esplicitare i processi cognitivi mentre avvengono. Inevitabilmente il TA è una tecnica invasiva, che influenza l'oggetto stesso che tenta di osservare, cioè il pensiero. Inoltre rallenta l'utente: in quel caso non vanno considerati i tempi di prestazione. Tuttavia è utile perché costringe l'utente ad una maggior concentrazione. Se nonostante questo sforzo avvengono errori o incomprensioni, è altamente probabile che questi avvengano a maggior ragione in condizioni naturali, con concentrazione più bassa.

Il TA andrebbe usato da un trainer addestrato: idealmente solo uno psicologo può avere questa formazione. Quando ho visto usare questa tecnica da persone non esperte, anche se magari molto esperte nella conduzione di altri strumenti, come i focus group, si sono evidenziati gravi errori di conduzione, per lo più inconsapevoli. Bisogna resistere alla tentazione di indagare quello che ci interessa ad ogni costo: è necessario lasciare libero l'utente di affrontare il compito con la strategia che preferisce e con la libertà di ragionamento che crede. Vi sono alcune semplici tecniche per tornare su un dato argomento, o per ottenere approfondimenti su un aspetto. Ma vanno usate con cautela e moderazione e non vanno insegnate in un semplice articolo. Approfondimenti su un certo aspetto dell'interfaccia possono essere richiesti al termine della prestazione, quando è opportuno un piccolo colloquio chiarificatore con l'utente che si è prestato al test. Un conduttore addestrato è la scelta migliore per questi test, perché minimizza i rischi connessi ad una cattiva conduzione. Se bisogna spendere una certa cifra per utenti e attrezzature, almeno è bene fare in modo che questo investimento non vada bruciato da un esperto… poco esperto. Certo, anche l'esperto è un costo (relativo, all'interno del budget di un progetto), ma serve a far fruttare gli altri soldi investiti: va visto dunque come una risorsa, a patto di sceglierlo bene.

Questi test sono di solito molto faticosi, possono durare anche un'ora per soggetto, e condurne 4 o 5 di seguito affatica molto il conduttore, che rischia di invalidare i successivi per mancanza di concentrazione e lucidità. Questi test vanno accompagnati da opportuni moduli da far compilare ai soggetti, meglio se comprendenti anche dei questionari da valutare a parte.

I dati che si raccolgono, dato l'esiguo numero dei partecipanti, non hanno validità statistica. Possono comunque essere riassunti in grafici o tabelle per semplificare l'esposizione, con l'accortezza però di non farli passare per rappresentativi di una popolazione, ma come utili indicazioni di tendenza da confrontare con le prestazioni riscontrate.

Scienza o arte?

Molto si è scritto, anche a sproposito, sulla scientificità di questo metodo. Dato che la bassa numerosità del campione rende i dati statisticamente inattendibili, si pretende che questo metodo non abbia dignità scientifica. Per restituirgliene almeno in parte si cita a volte la famosa ricerca di Nielsen e Landauer (che mi risulta mai replicata) sul fatto che 5 utenti identificherebbero la quasi totalità dei problemi di usabilità di un'interfaccia, dato che ogni utente successivo al primo incontra problemi in parte già incontrati dai suoi predecessori, e solo in parte di nuovi. Di conseguenza, sarebbe addirittura uno spreco utilizzarne più di cinque!

Comunque si voglia considerare questa ricerca, non bisogna confondere i test sperimentali, statisticamente significativi, con i test semplificati, non significativi. E' lo scopo dei due strumenti ad essere diverso, e pure il paradigma concettuale da cui nascono. Lo scopo dei primi è quello di prendere decisioni su ipotesi precise, non di analizzare le cause di un ampio spettro di comportamenti; quello dei secondi è identificare un insieme di problemi dell'interfaccia, scoprirne le cause e rimuoverli. Il test informale non è insomma il parente povero del test sperimentale: è un altro strumento, da usare in situazioni diverse e con obiettivi diversi, per i quali si dimostra più adatto. Ciò che è più importante, la mancanza di validità statistica non significa che il test si possa condurre senza preparazione, come a volte si crede. Ci sono molti accorgimenti 'tecnici' da adottare durante la sua conduzione, che rendono questa metodologia altrettanto passibile di invalidazione e di errore qualora non venissero attuati. Per condurre questi test in maniera scientifica è necessario conoscere gli assunti teorici e metodologici su cui si fondano, per capire quali comportamenti del conduttore o quali variabili ambientali possono influenzarli. Il fatto che i dati siano soprattutto di tipo qualitativo non toglie rigore allo strumento e non elimina la necessità di un'accurata preparazione del set, in modo di tenere sotto controllo il maggior numero di variabili possibili.

Un approfondimento metodologico interessante sui metodi di osservazione di questo tipo è quello proposto da Francesco Casetti e Federico Di Chio, che nell'appendice del loro "Analisi della Televisione" (Bompiani, 2001), affrontano il problema della validità degli strumenti di analisi di quel mezzo. Anche nello studio della tv, infatti si utilizzano – assieme altre tecniche – indagini ad personam, statisticamente non rappresentative. Ciò che questi metodi hanno a loro vantaggio, però, è l'esemplarità delle singole osservazioni, rispetto alla rappresentatività dei metodi a base statistica. L'esemplarità è basata sulla significatività qualitativa, invece che quantitativa, e si fonda sull'identificazione e l'approfondimento di modi di comportamento che potrebbero rappresentarne altri. Ogni soggetto diventa dunque esemplare di altri comportamenti, anche se naturalmente potrebbe non coprire l'intera gamma di comportamenti possibili, e di fatto non la copre. Rimandiamo a quel testo per approfondimenti.

L'osservazione ecologica

In questa metodologia ci si sforza di osservare una certa popolazione di utenti del sito in un contesto il più possibile naturale, tentando di non farsi notare mentre si osserva, per non influenzare la naturalezza del comportamento. Tutto ciò che l'osservatore deve fare in questa fase è annotare, di solito secondo una griglia di osservazione predisposta, comportamenti, attività rilevanti, elementi che possano essere in qualche modo utili alla progettazione. Il vero scopo di questo tipo di osservazione, è di tenere conto dell'esecuzione di una certa attività nel contesto reale, che spesso sfugge ai progettisti. Ad esempio, una procedura di acquisto di medicinali da parte di farmacisti può essere progettata per la massima sicurezza della transazione, con un'estrema attenzione alle fasi cruciali del compito e con una gestione di time-out che faccia cadere le transazioni che durano oltre un certo tempo, per ragioni di sicurezza. Tuttavia ad un'osservazione del contesto ci si accorgerebbe che i farmacisti lavorano spesso in un ambiente rumoroso e distraente, e vengono spesso interrotti da clienti o colleghi. Capita così che la procedura di acquisto venga interrotta e ripresa più volte. Diventa allora cruciale la chiarezza di ogni fase della procedura d'ordine e la necessità di tener traccia costante delle attività fin lì svolte.

Molte cose si possono scoprire dall'osservazione naturale del contesto, che è molto utile nelle intranet o in situazioni nelle quali l'utenza è molto controllata. E' inutile, per fare un altro esempio, distribuire in una intranet i documenti in formato pdf da stampare, se vi è un'unica stampante centralizzata, accessibile solo a pochi… Meglio fornire diverse alternative, anche in html semplice e leggero, ottimizzato per la lettura a monitor.

Come scegliere

Inutile dire che in ambito web il primo tipo di metodo non viene praticamente mai usato, a causa del suo limitato apporto al progetto (che si concentra solo su poche variabili definite a priori, limitando l'impatto delle scoperte) e del suo costo elevato. Molto più importante il test semplificato, perché genera scoperte in alcuni casi realmente creative su come altre persone utilizzano l'interfaccia. Passo decisivo di questo metodo è la depurazione dei risultati inutilmente idiosincratici, dei comportamenti che alcuni soggetti adottano solo per compiacere lo sperimentatore (spesso senza accorgercene) e la sintesi di quel che di buono si può trarre in una relazione agli sviluppatori che sia da essi realmente comprensibile. Elenchi di tabelle e grafici sono ben inutili se non si entra nello specifico di suggerimenti implementabili. Il costo di questo metodo varia a seconda di molti fattori, ma in una qualche variante esso è certamente sostenibile da qualunque progetto web io abbia partecipato, e i ritorni sono estremamente utili a identificare in maniera precoce problemi che altrimenti si trasferirebbero al prodotto finito, con danno ben più elevato del costo di una semplice tornata di test.

Idealmente, i test dovrebbero essere iterati più volte all'interno di un progetto: per capire quanto e quando, è bene contattare uno specialista fin dalle prime fasi del progetto. Solitamente consiglio ai clienti soluzioni su misura per il tipo di progetto, sovente con la possibilità di scegliere fra almeno due alternative.

L'osservazione ecologica è ovviamente utile quando… è possibile! Cioè quando il tipo di progetto la rende praticabile, quando si conoscono e si hanno sotto controllo ambienti d'uso e utenti di un determinato sito. E' sufficiente anche una sola mattinata di osservazione per trarre ottime indicazioni da parte di un esperto. E' sicuramente indicata nelle intranet o quando si debbano valutare utenti molto specifici, che operano in situazioni omogenee fra loro.

Qui sotto riportiamo una tabella riassuntiva dei tre metodi di cui abbiamo parlato con una indicazione di massima anche dell'ordine di spesa per i diversi metodi.

Metodi di osservazione strutturata degli utenti: caratteristiche a confronto
 Test sperimentaleTest informaleOsservazione ecologica
CostiAlti
(7.000-20.000 euro e più)
Medio-Bassi
(2.000-7.000 euro)
Bassi
(fino a 2.000 euro)
Numero utentida 25 a 50da 3 a 8Quanti disponibili
ProprietàAlta attendibilità; Verifica di ipotesi teoriche specifiche; ampiezza limitata dell'indagineEsemplarità; identificazione di un ampio ventaglio di problemi; insight sui motivi dei problemi incontratiIdentificazione di problemi legati al contesto e all'uso reale in condizioni reali, difficilmente riscontrabili nei test; scarsa verificabilità di dubbi e problemi specifici
Luogo di conduzioneLaboratorioStanza riservata con computerLuogo di lavoro
Dati raccoltiQuantitativi (tempi di risposta, numero di errori, di click, di successi, ecc.)Quantitativi (successi, errori, risposte a questionari) e qualitativi (Thinking aloud, interviste, colloqui di approfondimento)Qualitativi e quantitativi secondo una griglia predisposta

Cosa non sono i test di usabilità

Per finire, ci sembra interessante ricordare quello che i test non sono.

  1. I test di usabilità non sono focus group, non ci stancheremo mai di ricordarlo. Sebbene i focus group possano essere utili in specifiche fasi del progetto (più vicine a quelle di ideazione che di implementazione, però), queste situazioni non sono test di usabilità e non ci dicono nulla su come poi l'utente userà realmente quel prodotto.
  2. I test di usabilità non sono analisi euristiche, né analisi ispettive: questi sono metodi speculativi di analisi strutturata dell'interfaccia, altrettanto utili, ma svolte da esperti, non da utenti.
  3. Infine, i test di usabilità non sono task analysis (o analisi del compito). La task analysis non prevede l'uso di soggetti: è anch'essa un metodo di valutazione non empirico, speculativo e analitico, che prende le mosse da una precisa concettualizzazione del compito da svolgere, che viene scomposto nelle sue costituenti e attentamente analizzato a tavolino da un esperto. Non l'ho mai visto fare in un progetto web, e non ha comunque nulla a che vedere con un test, da cui è lontanissimo. Figuriamoci poi se possa aver a che fare con il thinking aloud, visto che non contempla l'uso di soggetti…

Queste poche note non vogliono essere esaustive: non basterebbe un libro di metodologia per affrontare tutte le varianti e le conoscenze necessarie a condurre appropriatamente i test di usabilità. Tuttavia sono sufficienti a farsene un'idea più precisa e forse a capire meglio quale strumento faccia al caso nostro.

Misurare l’usabilità

Sebbene i siti web possano essere divisi secondo tipologie che si basano sugli
obiettivi, è lecito assumere in ogni caso che vi sia un utente interessato
all’interazione,
dalla quale vuole ottenere informazioni o più genericamente
accesso a beni o servizi.

Scopo di un sito web è quindi senz’altro consentire la disponibilità
di questo accesso.
I modi sono quelli della comunicazione ipertestuale
e ipermediale: l’utente naviga all’interno delle pagine del sito alla
ricerca dell’accesso a ciò che gli interessa (un bene, un acquisto, un’informazione).

Gli studi di usabilità si servono di due ampie categorie di interventi
per migliorare questa interazione. La prima, più economica, è speculativa.
Una serie di esperti analizzano il sito o un prototipo dell’interfaccia
sulla base di alcuni assunti
, alla ricerca di problemi, fornendo
in output una serie di osservazioni e dei suggerimenti per possibili miglioramenti.

La seconda, più costosa e più precisa, si basa sull’osservazione diretta
dell’utente-tipo alle prese con il sito
in fase di progettazione o
di beta testing. A seconda dei compiti svolti dall’utente e delle difficoltà
incontrate si traggono dei suggerimenti per la progettazione.

Entrambe le categorie di tecniche sono utili, dato che risolvere tutti
i problemi di usabilità in un sito è praticamente impossibile
, come
nota Jakob Nielsen. Tuttavia riuscire a ottenere che il 85% degli utenti
non incontri seri problemi di usabilità sarebbe un risultato di cui essere
molto soddisfatti, e tutt’altro che scontato. Ma quali sono dunque le
tecniche disponibili, e a quali di queste è più opportuno ricorrere?

Metodi analitici

Fra i metodi analitici dell’usabilità dobbiamo citare soprattutto:

  1. Analisi del compito (task analysis)
  2. Cognitive walkthrough
  3. Valutazioni euristiche

Sebbene siano sistemi differenti, tutte utilizzano come abbiamo detto
degli esperti che valutano il sito. E’ importante sottolineare (e sottolineare
al cliente) che questa analisi non viene condotta su basi soggettive,
secondo il gusto dell’analista o basandosi su una generica esperienza
arbitrariamente maturata. L’analisi viene condotta secondo principi che
sono stabiliti su base empirica. La task analysis richiede l’analisi delle
componenti del compito, il calcolo dei passi necessari allo svolgimento
di una procedura. Nel caso del cognitive walkthrough si tiene anche conto
delle caratteristiche cognitive dell’utente (competenze richieste, conoscenze
di dominio, eccetera), verificando sull’interfaccia/prototipo l’esistenza
di eventuali problemi rispetto alle previsioni.

La valutazione euristica invece valuta l’interfaccia sulla base di liste
di euristiche
. Tali euristiche sono principi che hanno un elevato
valore predittivo
perché rappresentano la sintesi dei problemi
di usabilità più frequenti
organizzati in categorie. Le euristiche
di Nielsen,
ad esempio, sono ottentute tramite analisi fattoriale
su una base di 249 problemi
riscontrati in studi di vario tipo.

I metodi analitici sono particolarmente utili in fasi precoci del progetto,
quando i problemi di usabilità sono talmente numerosi che non avrebbe
senso sprecare dei soggetti
(che rappresentano un notevole costo)
per rilevare errori che potrebbero essere facilmente identificati anche
da uno o più esperti.

Metodi empirici

Tra le tecniche empiriche, con l’uso di soggetti, abbiamo:

  1. Analisi dei tempi di esecuzione
  2. Questionari di soddisfazione
  3. L’osservazione diretta con annotazione degli errori
  4. Il pensare ad alta voce (thinking aloud)

e altre. Alcune richiedono laboratori attrezzati con telecamere o dispositivi
di rilevamento temporale, eventualmente specchi unidirezionali e così
via, tutti dispositivi che innalzano naturalmente i costi. Tutte richiedono
dei professionisti addestrati
, perché quando si ha a che fare con
lo studio del comportamento di soggetti ci si trova quasi sempre a dover
progettare dei veri e propri disegni sperimentali per tentare di tenere
sotto controllo i problemi legati alla variabilità interindividuale e
alla scarsa naturalezza della situazione. Questo presuppone una certa
esperienza nella preparazione del setting, nella conduzione del test e
nell’analisi dei risultati, che andranno opportunamente classificati e
sottoposti laddove è possibile ad analisi statistica.

La durata di queste tecniche è molto variabile e naturalmente incide
sui costi. Le metodiche che prevedono l’osservazione e l’analisi del comportamento
dei soggetti possono essere più utili in fasi avanzate del processo di
progettazione: tipicamente dopo un redesign seguito magari alle prime
valutazioni effettuate con i metodi analitici
che abbiamo visto sopra,
oppure laddove si voglia avere uno studio preciso su funzioni specifiche
di un’interfaccia, piuttosto che su aspetti di carattere generale. Ancora,
le tecniche empiriche ripetute più volte in fasi diverse consentono
di quantificare con buona precisione i miglioramenti ottenuti.

E’ importante insomma porsi di volta in volta gli obiettivi e le domande
più appropriate al progetto e usare le tecniche di analisi dell’usabilità
più adeguate all’obiettivo che ci si è posti. Questa capacità di focalizzare
le tecniche sui problemi appropriati è determinante. Una tecnica condotta
benissimo, ma a partire da presupposti errati può, com’è evidente,
portare alla totale invalidazione dei risultati, con conseguente spreco
economico.

In generale è bene, se si dispone di un budget adeguato, distribuire
l’investimento in usabilità su diversi test svolti a più riprese nel corso
della progettazione, in maniera da correggere e ritestare in un processo
iterativo e con tecniche differenti il prodotto. Ciò comporta un certo
dispendio da parte di designer e progettisti, e può talvolta essere visto
con riluttanza dallo staff di progettazione, ma porta a indubbi vantaggi
nel momento in cui il prodotto finale ha un ciclo di vita più lungo,
almeno nel senso che non necessiterà di premature modifiche (spesso le
modifiche a posteriori su un sito già pubblicato sono molto costose) e
darà una maggior soddisfazione agli utenti.

Nonostante questi vantaggi, la cultura dell’usabilità sul web non è molto
diffusa in Italia probabilmente per due motivi:

  1. da una parte essa richiede un lavoro d’equipe che coinvolge esperti
    di usabilità e designer/progettisti
    che può non essere semplice
    far accettare a tutti gli elementi coinvolti;
  2. dall’altra in certa ottica manageriale (non certo quella che privilegia
    il cliente e la qualità del lavoro) si preferisce tagliare i costi
    per attività delle quali non si apprezzano benefici immediati ed evidenti.

Tuttavia una successiva analisi degli esiti del sito in termini di accessi,
gradimento e converting-rate (la percentuale di utenti fra quelli che
accedono al sito che riesce a portare a termine un compito significativo)
potrà dare una misura della validità o meno di tale rinuncia. In fondo
lo scopo è quello di aumentare le transazioni fra utente e sito. Non solo
l’usabilità propone dei metodi per farlo, ma ne può essere addirittura
verificata la portata a posteriori. Da tali verifiche come è intuibile
si potranno trarre indicazioni anche economiche piuttosto precise sui
rapporti costi/benefici delle analisi di usabilità.

Le analisi di usabilità si differenziano in definitiva dalle semplici
valutazioni svolte con altri approcci soprattutto per la verificabilità
dei risultati e per il contributo concreto che portano al processo di
design. Tale contributo focalizza l’attenzione su aspetti specifici
e realizzabili
, anziché ridursi ad una semplice pagella del progetto,
che non sarebbe di nessuna utilità agli sviluppatori. E’ importante sottolinearlo:
l’usabilità non dà pagelle ai designer, ma tenta di aiutarli a risolvere
problemi che emergono durante l’interazione tra utente e interfaccia.

Sottolineare questo aspetto è compito degli esperti di usabilità
e può alle volte contribuire anche a vincere le resistenze alla collaborazione
di una parte dello staff coinvolta nel progetto.