
VR/AR : Réaliser une expérience véritablement immersive – EE Times
//php echo do_shortcode(‘[responsivevoice_button voice=”US English Male” buttontext=”Listen to Post”]’) ?>
Pendant des décennies, la promesse d’une réalité virtuelle (VR) et d’une réalité augmentée (AR) véritablement immersives a semblé terriblement proche, mais à chaque introduction de nouvelles technologies, elle semble tout simplement hors de portée. La bonne nouvelle est que nous nous rapprochons de plus en plus. Pourtant, pour que la réalité augmentée et la réalité virtuelle soient vraiment immersives, tous nos sens doivent croire que l’expérience est réelle.
La création d’expériences VR et AR crédibles dépend de la précision et de la cohérence avec lesquelles les ingénieurs peuvent reproduire les éléments qui, ensemble, composent notre perception de la réalité, à commencer par la compréhension de la physiologie humaine et des neurosciences. Nous devons comprendre les signaux multisensoriels indispensables à la perception des structures 3D dans le monde réel, puis les imiter à l’aide de technologies intégrées aux casques.
Atteindre la réalité basée sur la technologie
Les dispositifs VR obstruent la vision des utilisateurs, présentant un environnement simulé où les stimuli sensoriels procurent des sensations de présence et d’interactions avec des objets virtuels. Les dispositifs AR superposent des objets virtuels sur l’environnement physique, avec des signaux sensoriels assurant la cohérence entre les éléments physiques et augmentés. Également connus sous le nom d’appareils à réalité mixte, les systèmes 3D AR mélangent des éléments du monde réel dans un environnement virtuel.
Chaque configuration a des exigences uniques, mais les développements communs qui font avancer ces systèmes incluent la détection et le suivi 3D en temps réel, un traitement informatique puissant et économe en énergie, un rendu et des affichages graphiques haute fidélité, un son immersif, des algorithmes d’apprentissage automatique et d’intelligence artificielle, des ressources humaines intuitives. interfaces et nouvelles applications.
Une expérience visuelle immersive
Grâce à des technologies graphiques et d’affichage innovantes, nous pouvons restituer des objets numériques de haute fidélité et regrouper plus de pixels dans des zones plus petites avec une clarté et un éclairage plus importants que jamais auparavant, mais il reste encore beaucoup à faire. Il ne s’agit pas seulement de rendre des images réalistes, mais de le faire avec un champ de vision (FOV) suffisamment large sur de petits écrans proches de l’œil avec les repères visuels requis.
Les écrans de smartphone haute résolution d’aujourd’hui restituent plus de 500 pixels par pouce (PPI). Mais pour les visuels immersifs du casque, mesurer le PPI n’est pas suffisant. Les pixels par degré (PPD) du champ visuel couvert par l’affichage sont une mesure plus pertinente.
Au point de vision centrale, l’œil humain typique a une résolution angulaire d’environ 1/60 de degré. Chaque œil a un champ de vision horizontal d’environ 160 et un champ de vision vertical d’environ 175. Les deux yeux travaillent ensemble pour une perception stéréoscopique de la profondeur sur environ 120 de large et environ 135 de haut. Tout cela signifie que nous devons fournir environ 100 mégapixels (MP) pour chaque œil et environ 60 MP pour la vision stéréo pour fournir une acuité visuelle de 60 PPD. Comparez cela avec un écran de casque VR grand public à la pointe de la technologie aujourd’hui à environ 3,5 MP.
Étant donné que la technologie de fabrication ne prend pas encore en charge cette densité de pixels, les concepteurs doivent faire des compromis pour rendre les parties saillantes des scènes visuelles en haute résolution, sur la base d’une compréhension du fonctionnement du système visuel humain.
Suivi oculaire et rendu fovéal
L’acuité visuelle humaine élevée est limitée à un très petit champ visuel d’environ 1 autour de l’axe optique de l’œil, centré sur la fovéa. Cela signifie que la vision est plus nette au centre et plus floue sur les bords. En utilisant des capteurs en temps réel pour suivre le regard d’un utilisateur, nous pouvons rendre un plus grand nombre de polygones dans la zone centrale du regard en y concentrant la puissance de calcul et faire chuter de manière exponentielle la fidélité graphique (densité de polygones) ailleurs. Ce rendu fovéal peut réduire considérablement la charge de travail graphique et la consommation électrique associée.
Des chercheurs du monde entier étudient cette question et les concepteurs d’appareils explorent des configurations multi-écrans, dans lesquelles un écran haute résolution couvre la vision fovéale et des écrans à nombre de pixels relativement inférieur couvrent la vision périphérique. Les futures architectures d’affichage permettront une projection dynamique en temps réel de contenu visuel à plus haute résolution dans et autour de la direction du regard.
Inadéquation de l’accommodation et de la convergence
Une autre préoccupation clé est d’assurer la cohérence des signaux oculomoteurs pour corriger l’accommodation oculaire et l’inadéquation de la convergence. Les humains voient le monde de manière stéréoscopique, leurs deux yeux convergeant vers un objet. Grâce à l’accommodation, la lentille de chaque œil change de forme pour focaliser la lumière provenant de différentes profondeurs. La distance à laquelle les deux yeux convergent est la même que la distance à laquelle chaque œil s’adapte.
Dans les casques VR et AR commerciaux d’aujourd’hui, il existe un décalage entre la convergence et les distances d’hébergement. La lumière du monde réel est modifiée par des réflexions et des réfractions provenant de diverses sources à des distances variables. Dans un casque, toute la lumière est générée par une source à une distance. Lorsque les yeux convergent pour voir un objet virtuel, leurs formes de lentilles doivent constamment s’ajuster pour focaliser la lumière à distance fixe émanant de l’écran, provoquant divers degrés de décalage entre les distances, entraînant souvent une fatigue ou une désorientation des yeux.

Diverses approches sont explorées, telles que des optiques dynamiquement mobiles et des lentilles à cristaux liquides accordables qui peuvent changer la distance focale lorsque la tension est ajustée.
Audio spatial 3D
Pour une véritable immersion, l’expérience audio AR/VR doit correspondre et se coordonner avec l’expérience visuelle afin que l’emplacement d’un son s’aligne parfaitement avec ce que l’utilisateur voit. Dans le monde réel, la plupart des gens peuvent fermer les yeux et comprendre l’emplacement approximatif du son. Ceci est basé sur le cerveau percevant et traduisant l’heure d’arrivée et l’intensité d’un son. Cela se produit immédiatement et automatiquement dans le monde réel, mais dans les casques VR, l’audio spatial 3D doit être programmé et traité.
Le défi est que chaque personne ressent les signaux sonores différemment, le spectre du signal étant modifié en fonction de facteurs tels que la taille, la forme et la masse de la tête et des oreilles. C’est ce qu’on appelle la fonction de transfert liée à la tête, quelque chose que les technologies d’aujourd’hui visent à rapprocher. Les recherches en cours pour personnaliser cette fonction permettront aux utilisateurs de casques de percevoir les sons émanant d’objets virtuels avec des repères spatiaux corrects.
Suivi de l’intérieur vers l’extérieur à faible latence
Suivre le mouvement de la tête d’un utilisateur en temps réel est une nécessité évidente en VR/AR. À tout moment, les systèmes doivent être en mesure de déterminer la position du casque dans l’espace 3D par rapport à d’autres objets, tout en garantissant une grande précision et une faible latence pour restituer et présenter les informations visuelles et sonores correspondantes en fonction de la position et de l’orientation de la tête de l’utilisateur et mettre à jour rapidement au fur et à mesure que l’utilisateur se déplace.
Jusqu’à récemment, les casques VR suivaient les mouvements de la tête à travers l’extérieur dans des méthodes de suivi, en utilisant des capteurs externes qu’un utilisateur plaçait autour de son environnement. Aujourd’hui, cependant, le suivi à l’envers fournit une technologie de localisation et de cartographie simultanée et une odométrie visuelle-inertielle, basée sur une combinaison de vision par ordinateur et de capteurs de mouvement finement réglés, permettant le suivi des mouvements à partir d’un casque.

Un défi permanent, cependant, consiste à obtenir une faible latence mouvement-photon, le délai entre le début d’un mouvement de l’utilisateur et l’émission de photons à partir du dernier pixel de la trame d’image correspondante sur l’affichage. En d’autres termes, c’est le temps total pris par l’acquisition et le traitement des données du capteur, les interfaces, les calculs graphiques, le rendu d’image et les mises à jour de l’affichage.
Dans le monde réel, nous suivons les mouvements de notre tête en fonction des changements du champ visuel déterminés à partir de notre vue ainsi que des informations de mouvement détectées par notre système sensoriel vestibulaire. De longues latences dans un casque VR peuvent provoquer une inadéquation visuo-vestibulaire, entraînant une désorientation et des étourdissements. Les systèmes d’aujourd’hui peuvent généralement atteindre des latences mouvement-photon de 20 à 40 ms, mais des expériences perceptuellement transparentes nécessitent que cela soit inférieur à 10 ms.
Apports humains et interactions
L’expérience immersive nécessite également que les utilisateurs puissent interagir de manière réaliste avec des objets virtuels. Ils doivent être capables de tendre la main et de saisir un objet, et celui-ci doit réagir en temps réel en suivant les lois de la physique.
Les casques à la pointe de la technologie d’aujourd’hui permettent aux utilisateurs de sélectionner des objets avec des gestes de base de la main, et à mesure que la technologie de vision par ordinateur continue de s’améliorer avec les progrès rapides de l’IA, les futurs casques incluront des fonctionnalités de contrôle gestuel plus riches.
Les appareils de prochaine génération offriront également des interactions multimodales, où la technologie de suivi oculaire permettra aux utilisateurs de faire des sélections en concentrant leur regard sur des objets virtuels, puis de les activer ou de les manipuler avec des gestes de la main. Bientôt, à mesure que la technologie de l’IA continuera de se développer et que le traitement local à faible latence deviendra une réalité, les casques auront également une reconnaissance vocale en temps réel.

Regarder vers l’avant
Aujourd’hui, nous pouvons faire l’expérience de certaines applications VR grand public et de RA industrielles prometteuses, mais elles ne sont pas totalement immersives. Bien que le chemin ne soit pas immédiat, avec des milliards de dollars d’investissement dans les technologies connexes, le potentiel est presque illimité. Par exemple, McKinsey estime que le métaverse pourrait générer entre 4 000 et 5 000 milliards de dollars d’ici 2030.
En nous attaquant constamment aux obstacles techniques, nous pourrons reproduire des expériences réalistes grâce à la technologie, diminuant finalement les différences entre le monde réel et le monde virtuel au fur et à mesure que nous les vivons.
Vous pouvez en savoir plus sur ces développements et voir les derniers produits AR et VR lors de la Display Week 2023.
Achin Bhowmik est président de la Society for Information Display, ainsi que directeur technique et vice-président exécutif de l’ingénierie chez Starkey.

