A l'origine était SARAH... 1-ère partie

La vision par ordinateur est-elle paradoxale ?

Dans le déroulement de la vie, on découvre parfois des événements étrangement liés qui nous amènent rétrospectivement à nous interroger sur notre propre comportement.
Aujourd’hui même, 19 mars 2011, je viens de me rendre compte que la genèse de Polynesia n’était pas sans rapport avec mes travaux de recherche en Reconnaissance des Formes et Intelligence Artificielle effectués il y a bien longtemps. J’en ai pris conscience en essayant, pour la n-ième fois, de rédiger une rubrique sur mes activités de recherche, une rubrique pas trop rébarbative pour ne pas effrayer le lecteur logiquement éloigné de mes préoccupations scientifiques.
Donc en réfléchissant à ce texte tentant d’expliquer comment une certaine intelligence pouvait naître au sein des machines, j’ai fait une découverte surprenante : la structure du système SARAH (Système d’Apprentissage et de Reconnaissance Automatique Hiérarchisé) que j’avais créé dans les années 80 ressemblait à celle que j’avais utilisée pour écrire les trois tomes de ma trilogie vingt ans plus tard !
J’ai alors pensé qu’il y avait peut-être là une sorte d’intrigue, une approche pédagogique inédite, permettant je l’espère d’intéresser le lecteur de Polynesia. Lorsqu’une passion vous anime, nul doute que l’on souhaite en parler et éventuellement la partager, mais quand il s’agit de recherche universitaire apparaissant parfois comme fondamentale, cela peut être de la nature du défi !

J’ai passé quarante ans de ma vie à enseigner et à faire de la recherche dans des domaines comme l’Électronique, l’Informatique, le Traitement du Signal, la Reconnaissance des Formes(RF) et l’Analyse d’Images ou encore l’Intelligence Artificielle. Mais comment résumer en quelques lignes ce qui fut parfois une véritable obsession qui dura pendant une grande partie de ma vie ?

La RF peut être vue comme une approche particulière de l’Analyse d’Images. Par « images » il faut plutôt entendre « l’image » d’une scène, ou d’un objet, formée dans le plan focal d’une caméra (c’est cette « image de la scène », ou « image de l’objet » qui devient le fichier informatique source destiné à être traité par ordinateur). C’est donc bien l’image d’une scène ou d’un objet réel qui émane du monde qui nous entoure et elle en garde toutes les caractéristiques, principalement d’évolution ou de perturbation. Dans l’image de cette scène, ou dans l’image de tel objet, il y a des formes. L’être humain aime identifier, reconnaître et mettre ces formes dans des classes. C’est le but de la RF : trouver la classe de tel objet.
Aujourd’hui (2011), la RF est toujours un large domaine de recherche très fortement lié à l’Informatique, mais aussi au Traitement du Signal, à l’Intelligence Artificielle, etc., un domaine ouvert car on ne sait pas par exemple reconnaître très rapidement avec un ordinateur des objets complexes dans des scènes réelles et fortement perturbées.
Les applications de la RF sont multiples, allant du domaine médical au domaine industriel ou spatial, en passant par la robotique sous toutes ses formes, sans oublier les applications militaires, etc..

En 1978, j’ai été confronté à un problème de RF. Il s’agissait d’étudier la faisabilité d’un système temps réel de reconnaissance automatique des formes de signatures manuscrites. Le but était d’identifier une personne, un signataire, c’est-à-dire une classe, à partir de différentes signatures, c’est-à-dire les objets.

Le fait qu’il s’agissait de signatures était tout à fait anecdotique, c’était le problème bien plus général de la stratégie d’une reconnaissance automatique d’objets quelconques qui était posé.

La figure ci-dessous montre par exemple différents objets qu’il semble a priori faciles de classer dans :

Lettre A
Lettre B
Lettre H
Chien
Autre mammifère

On remarque que certains objets « Lettres » posent des problèmes. Sont-ils de classe « Lettre H » ou de classe « lettre A » ? Et la « lettre A » retournée n’est-elle pas en fait un symbole mathématique ?
De même, dans le contexte particulier des images présentées ici, la différence entre « Chien » et « Autre mammifère » ne semble pas si évidente …

En RF, l’objectif est toujours de mettre au point une méthode, laquelle correctement programmée sur un ordinateur recevant l’image d’un objet réel à l’aide d’une caméra doit permettre de déterminer sa classe avec des performances comparables à celle d’un homme. Il est alors naturel de faire un parallèle entre ce que fait l’homme et ce que l’on souhaite faire réaliser à un ordinateur.

Un homme voit un objet réel qui est une fleur. Au sein de ses neurones, dans une sorte d’espace de représentation, « l’image mentale » d’une fleur est probablement activée. On ne sait pas bien aujourd’hui comment les groupes de neurones de notre cerveau structurent un tel espace.
Cependant, l’homme interprète cet objet comme appartenant à la classe « Fleur ». On connaît très bien cet espace d’interprétation, il fait partie de la culture de l’homme qui, entre autres choses, connaît les fleurs.

Un ordinateur, à l’aide d’une caméra « voit » un objet réel qui est une fleur. Au sein de ses circuits, dans un espace de représentation numérique, un fichier « image d’une fleur » est activé. On connaît très bien cet espace, il est numérique et permet de stocker et de traiter l’image de la fleur.
On programme (c’est tout le problème !) l’ordinateur pour qu’il apprenne à interpréter cet objet comme appartenant à la classe « Fleur ». On connaît très bien cet espace d’interprétation, car c’est évidemment le même que celui défini par l’homme lui-même, de par sa culture.

En conclusion, on connaît mal l’espace de représentation utilisé par l’homme pour reconnaître des objets et on sait encore moins comment il procède pour les reconnaître. Cependant le but d’un système de RF est bien de faire comme lui.
De plus, avec un ordinateur on cherche souvent à faire cette reconnaissance :

en temps réel et parfois plus rapidement que ne peut le faire l’homme,
même si l’objet est en partie caché ou soumis à diverses perturbations,
dans le cadre d’une analyse de scène complexe comportant une grande quantité d’objets plus ou moins visibles.
Simuler avec une machine une activité de raisonnement et de décision alors que nous ne savons pas nous-mêmes comment nous procédons est un vrai défi !

C’est précisément ici que se situe le paradoxe évoqué dans l’entête de ce texte. Un système général de Vision Par Ordinateur (VPO), capable d’identifier des objets d’une scène, de les trier, de les classer, etc.. comme le ferait un être humain, utilisera nécessairement un module de RF. Et voilà bien le paradoxe : comment peut-on réaliser un système de VPO – effectuant donc entre autres de la RF – si l’on ne sait pas comment l’homme fait pour identifier, trier, classer ces objets ? Car on ne sait vraiment pas comment fait l’homme !

Pour lever le paradoxe, « il suffit » de remarquer que si l’on ne sait pas comment fait l’homme dans « le détail », on sait « en gros » comment ça cela se passe... Il apprend depuis son plus jeune âge à reconnaître des objets de toutes natures et il possède un cerveau fait pour ça ! Et, de plus, l’homme est par définition très « auto-adaptatif » avec son environnement...

Alors, peut-on mettre dans un ordinateur des processus auto-adaptatifs permettant à une machine d’apprendre à reconnaître des objets sans que l’on ait besoin de lui dire précisément comment elle doit faire ?

La réponse dans « A l’origine était SARAH… 2-ième partie. »

Jean-Pierre Bonnefoy

A l’origine était SARAH... 1-ère partie

La vision par ordinateur est-elle paradoxale ?