User Tools

Site Tools


ipm:tests_d_utilisabilite

Tests d'utilisabilité

L'objectifs et le principe des tests d'utilisabilité est l'évaluation empirique, c'est-à-dire fondée uniquement sur des expériences avec des utilisateurs, de l'utilisabilité selon différents axes : efficacité, apprentissage, minimisation des erreurs, satisfaction de l'utilisateur, .. . Il ne s'agit pas d'élaborer une théorie ou d'inférer ou de calculer des propriétés de l'interface mais d'observer le comportement d'utilisateurs représentatifs et de tirer des conclusions uniquement sur ces observations.

Le processus habituel de test comprend six étapes que nous allons décrire successivement. Le degré de sophistication dans la réalisation de chaque étape dépendra évidemment des moyens à disposition mais il n'empêche que chaque étape a son importance.

1. Développer un plan expérimental

Cette étape détermine toute la structure de l'expérimentation. En général on considère qu'un plan expérimental doit définir

  • le domaine de la recherche
  • la problématique
  • la ou les hypothèse à tester
  • le profil de l’utilisateur type
  • la méthode employée
  • le mode de récupération des données
  • la structure du rapport

Dans le cas du test des interfaces le domaine de travail est bien sûr l'évaluation de l'utilisabilité de l'interface mais il peut s'avérer que ce domaine soit trop vaste en comparaison des moyens à disposition. Il faudra alors se limiter aux points qui semblent les plus cruciaux dans l'interface. Dans un cas l'efficacité de l'utilisateur sera primordiale (p.ex. réaction en cas de situation dangereuse) alors que dans un autre ce sera plutôt la facilité d'apprentissage qui sera importante (p.ex pour un distributeur de billets de bus). De plus, le niveau de fidélité du prototype déterminera les possibilités de tests. Sur un prototype de basse fidélité (p.ex. en papier) il est guère possible de tester l'efficacité de l'utilisateur, l'ergonomie du texte, le choix des couleurs, etc.

La problématique est l'ensemble des questions auxquelles l'expérimentation devrait permettre de répondre. Il est important de formuler ces questions explicitement. Par exemple

  • les utilisateurs peuvent-ils réaliser la tâche X suffisamment rapidement ?
  • les utilisateurs comprennent-ils les messages affichés par le système ?
  • la souris est-elle plus efficace qu'un “trackball” pour réaliser la tâche T ?

Une expérience sert en principe à valider ou invalider une hypothèse. Dans le cas d'une interface, les hypothèse sont en général de la forme “l'interface proposée possède la propriété P”. Par exemple: “l'interface permet de réaliser la tâche T en moins de n secondes” ou bien “les utilisateurs vont se tromper moins d'une fois sur 10 dans tel scénario”.

On voit ici que l'analyse des tâches est primordiale car la problématique et les hypothèses sur l'interface font presque toujours référence aux tâches pour lesquelles l'interface a été conçue.

Le profil de l'utilisateur type provient, quant à lui de l'analyse des utilisateurs, qui a mis en évidence les caractéristiques des utilisateurs du système. À partir de cette analyse il faut définir un (ou plusieurs) profil(s) qui vont servir au recrutement des testeurs.

Une fois que les hypothèses à tester sont fixées, il faut déterminer une méthode qui nous permettra de confirmer ou infirmer celles-ci. La méthode comprendra en général

  • un scénario que l'utilisateur devra suivre. Le scénario sera composé d'un ensemble de tâches (élémentaires ou complexes) que l'utilisateur devra effectuer durant le test. La définition du scénario peut comprendre le choix d'un ensemble de données à traiter, d'un contexte d'utilisation, etc.
  • le choix du matériel sur lequel l'utilisateur travaillera ainsi que le matériel de collecte des informations (caméra, micros, etc.)
  • un ensemble de variables quantitatives ou qualitatives que l'on souhaite mesurer.

Suivant la dimension de l'utilisabilité à évaluer on utilisera différentes méthodes et variables.

Dimension Méthode
Apprentissage sélectionner des utilisateurs novices, puis mesurer le temps nécessaires pour effectuer une certaine tâche.
Efficacité définir le terme «expertise», sélectionner les utilisateurs «experts», puis mesurer le temps nécessaires pour effectuer une tâche type.
Mémorisation sélectionner des utilisateurs occasionnels, puis mesurer le temps nécessaires pour effectuer une tâche type.
Erreurs comptabiliser les erreurs mineures/majeures obtenues par les utilisateurs durant l’exécution de tâches types
Satisfaction subjective interroger (questionnaire) les utilisateurs représentatifs du système.

Dans la mesure du possible on automatisera la mesure des variables quantitatives, pour éliminer la subjectivité.

Les mesures des variables qualitatives seront en général obtenues à partir de questionnaires

Si le test a pour but de comparer deux solutions (ou d'avantage) on peut procéder de manière inter ou intra-sujet.

  • inter-sujets (between subjects): dans cette configuration les utilisateurs sont divisés en deux (ou plus) groupes et chaque groupe ne teste qu'une seule solution. Pour éviter les biais il faut tirer au sort la composition des groupes. plus ...
  • intra-sujet (within subject) chaque utilisateur teste les deux solutions. Le grand avantage de cette configuration est qu'elle nécessite moins de participants. Par contre, l'ordre d'exécution des tâches peut introduire des biais, par exemple par effet d'apprentissante et de fatigue. Pour les éviter on effectue un contre balancement qui consiste, si c'est possible, à utiliser différents ordres d'exécution des tâches. plus ...

Par exemple, si l'on veut comparer deux solutions (interfaces) A et B sur la base de trois tâches, chaque utilisateur devra effectuer 6 tâches T1/A, T2/A, T3/A et T1/B, T2/B, T3/B. Le tableau suivant montre une solution de contre balancement. Les utilisateurs sont répartis en 6 catégories a à f qui déterminent l'ordre d'exécution des tâches

1ère 2e 3e 4e 5e 6e
a T1/A T2/A T3/B T3/A T2/B T1/B
b T2/A T3/A T1/A T1/B T3/B T2/B
c T3/A T1/B T2/A T2/B T1/A T3/B
d T1/B T2/B T3/A T3/B T2/A T1/A
e T2/B T3/B T1/B T1/A T3/A T2/A
f T3/B T1/A T2/B T2/A T1/B T3/A

On voit que chaque tâche suit chaque autre tâche exactement une fois, ce qui évite le biais de report d'une tâche sur la suivante.

2. Sélectionner les participants

Qui sélectionner ?

Les participants doivent avoir un profil correspondant au profil déterminé lors de l'analyse.

Il est absolument crucial que les participants ne soient impliqués en aucune manière dans le développement de l'interface.

Combien de participants ?

Deux facteurs interviennet pour déterminer le nombre de participants :

  1. Quels sont les objectifs : trouver les grosses erreurs d’utilisabilité ou finaliser le produit ? Pour trouver de grosses erreurs un nombre réduit de participant est suffisant.
  2. Quelle est la marge d’erreur tolérée : plus le nombre participants est élevé et plus petit est l’intervalle de confiance

D'après les expériences de Nielsen faut uu minimum 5 participants (idéalement 10) par catégorie d'utilisateur (et par système à tester). 5 participants permettent en général de détecter 75% des erreurs d'utilisabilité, avec 10 on arrive à 85%. Le rapport coût/bénéfice décroit évidemment avec l'augmentation du nombre de participants.

3. Préparer le matériel

Le matériel expérimental comprend :

  • Script contenant le déroulement du test
  • Questionnaire initial
  • Script contenant le déroulement de l’étape de familiarisation
  • Scénario des tâches
  • Grille(s) d’observations
  • Questionnaire post-expérimental
  • Guide de debriefing

4. Effectuer un test pilote

Le test pilote sert à mettre au point dans les détails le déroulement du test avec les utilisateurs sélectionnés. Sachant qu'il est difficile, voire coûteux, d'obtenir la participation d'un utilisateur, il faut s'assurer que tout fonctionne parfaitement au moment du test. Il n'est pas non plus envisageable, pour des raisons pratiques et de validité scientifique, de faire refaire le test à un utilisateur.

5. Conduire le test réel

Les acteurs du test sont :

le modérateur: responsable du test, il accueille le participant, conduit l'expérimentation et le debriefing

le participant

l'assistant: enregistre les activités et les événements pendant le test. Il peut être accompagné d'un caméramans

Si l'on effectue un test de type “Wizard of Oz” il y aura un “sorcier” qui jouera (derrière le décor) le role de la machine.

6. Analyser les résultats et produire un rapport

Données de performance

  • Temps moyen pour effectuer la tâche
  • Temps max. et min. pour effectuer la tâche
  • Déviation standard (i.e. écart type)
  • Coefficient de variation
  • Erreur standard de la moyenne

Exactitude de la tâche

  • % d’utilisateurs ayant effectué la tâche dans les délais
  • % d’utilisateurs ayant effectué la tâche(dans ou hors délais)
  • Même que ci-dessus, avec de l'aide
  • Moyenne du taux d’erreur

Analyse des données

  • Identifier et se concentrer sur les tâches qui n’ont pas passé le test ou ont montré de graves problèmes
  • Identifier les difficultés et les erreurs des usagers
  • Identifier les sources d'erreurs
  • Déterminer la priorité des problèmes en fonction de leur criticité, i.e. gravité et probabilité d'occurrence
  • Analyser dans la mesure du possible les différences entre les groupes
  • Fournir des recommandations

Questionnaire de satisfaction

La satisfaction de l’usager est une dimension de l'utilisabilité aussi importante que l’efficacité et l’efficience. On peut la mesurer à l'aide de questionnaires de satisfaction.

On fera remplir ces questionnaires en fin de test.

System Usability Scale (Bevan 1986)

Il s'agit d'un questionnaire de satisfaction « low-cost » pouvant être utilisé pour des évaluations globales d’interfaces. Le participant doit répondre à 10 questions (échelles graduées de Likert en 5 points). Une pondération spécifique produit un score entre 0 et 100. (questionnaire et mode d'emploi, article original)

Questionnaire de satisfaction

  • Satisfaction word cloud (Davis)
  • Usage d’adjectifs pour caractériser le prototype testé
  • Principe
  • Le participant choisit dans une liste (e.g., 118 « product reaction cards ») 5 adjectifs qui caractérisent le prototype testé
  • Il explique ensuite pourquoi il a choisit ces adjectifs
  • Computer System Usability Questionnaire (CSUQ, IBM)
  • Usefulness, Satisfaction, and Ease of Use (USE, Lund)

Références

  • Tullis, T., and Albert, B. (2008) Measuring the user experience: Collecting, analyzing and presenting usability metrics. Morgan Kauffman Publishers, Burlington, MA.
  • Rubin, J. (1994) Handbook of Usability testing, Wiley Technical Communication Library.
  • Nielsen, J. (1993) Usability Engineering, AP Professional, New York.
  • Jordan, P. (1998) An Introduction to Usability, Taylor & Francis, London.

Exemple

Test d'une interface d'exploration de dessins pour des personnes aveugles (Roth, 2003).

Participants : 10 personnes aveugles (5 de naissance) agées de 20 à 43 ans.

Methodologie

  • 20 minutes de familiarisation avec le système d'exploration d'images
  • 30 minutes pour réaliser châque tâche

Tâches : reproduire son image mentale de la scène en utilisant une tablette graphique

Le temps de réalisation de la tâche était noté

Images utilisées pour le test

Critères d'évaluation

  • variable found : indique si un objet de l'image a été trouvé ou non par le participant
  • variable located : précision de la localisation
  • variable contour : précision du contour dessiné

Résultats

ipm/tests_d_utilisabilite.txt · Last modified: 2012/05/27 10:31 by gilles