Recherche et développement

Le service audiovisuel est un lieu de réflexion et de recherche sur les techniques d'enregistrement et de diffusion du son en rapport avec les nouvelles technologies et les nouveaux médias.

L'espace sonore

Introduction

Le service audiovisuel du Conservatoire a dans ses missions une activité de recherche. Cette recherche s’est orientée depuis l’origine vers la compréhension et la restitution de l’espace sonore et sa restitution car c’est un domaine fondamental pour l’enregistrement de la musique.

Cet article présente ces recherches et oriente vers les différentes publications produites par le service audiovisuel et présentes sur le site.

L’espace sonore naturel est généralement perçu avec l’espace visuel. Les informations se complètent et se renforcent pour créer notre sensation d’espace. Dans cette sensation, la mémoire joue un rôle essentiel car nous avons grandi avec ces informations et elles font partie de notre construction de la réalité.

La transmission audio-visuelle implique une modification de ces informations. D’une part parce que l’on peut donner à entendre les sons sans l’image (écoute acousmatique). D’autre part parce que même avec l’image, cette transmission pose le problème de représenter un espace (celui de la captation), dans un autre espace (celui de l’auditeur /spectateur) avec un procédé technique possédant des limites en matière de transmission de l’information.

Le développement des systèmes multicanaux destinés au cinéma, la réalité virtuelle et les techniques binaurales / transaurales, viennent remettre en question les techniques de stéréophonie utilisées depuis plus de cinquante ans. Pour répondre à ces questions, constituant toujours un sujet d’étude, il faut analyser l’information utilisée par la perception pour construire l’espace sonore.

L’espace sonore naturel : sources sonore et réverbération

Les sources sonores sont les objets qui par leur vibration, produisent les ondes sonores, par exemple un instrument de musique. Ces ondes sonores ont des caractéristiques spectrales (ensemble des fréquences émises des plus graves au plus aigües) dépendant de la direction de l’espace, ayant pour origine le ou les centres acoustiques de la source, que l’on considère : on parle de directivité de la source.

Figure 1

Fig 1. Sources plus (à droite) ou moins(à gauche) directives

L’oreille localise la direction de provenance de l’onde par deux mécanismes : la perception de la différence de temps d’arrivée de l’onde entre les deux oreilles et la perception de la différence d’intensité en fonction de la fréquence, crée par la modification apportée par le corps, la tête et les pavillons des oreilles, à l’onde sonore parvenant à chacune des oreilles.

Figure 2

Fig 2. Evolution de la différence de temps d'arrivée entre les deux oreilles en fonction de l'angle d'incidence de la source (à gauche) et différence de niveau en fonction de la fréquence, pour un angle d'incidence donné (à droite)

L’identification de la direction de provenance de l’onde directe n’est qu’une partie de l’information dont dispose la perception sur l’espace sonore, l’autre partie vient de la perception comparée du son direct et du son réverbéré par l’espace environnant.

Les différents éléments constituant les limites de l’espace entourant la source (murs, sols plafonds etc.) vont réfléchir le son vers l’auditeur et vers les autres éléments, créant ainsi une réverbération dont la perception va apparaitre comme une signature sonore du lieu dans lequel se trouve la source. Cette forme sonore de la réverbération se révèle à la perception par la manière dont elle étire dans le temps les composantes spectrales provenant de la source, modifiant ainsi le timbre de l'instrument. Cet étirement dans le temps des composantes du son va aussi lier ensemble les notes, exactement comme une pédale forte de piano, favorisant le légato et jouant donc un rôle important dans les conditions  de perception de la musique. Pour les réverbérations longues, les arpèges vont être plus perçus comme des accords.

Figure 3

Fig 3. Sonagramme d’un son direct Sonagramme et du même son réverbéré

Il faut comprendre que même si la réverbération est courte, elle joue un rôle essentiel dans la perception de l’espace.

Toute l’information contenue dans l’énergie réverbérée arrivant 1/10° de seconde après le son direct, que l’on appellera l’énergie précoce de la réverbération permet d’établir une relation entre la source sonore et les surfaces environnantes.

Par opposition, l’information contenue dans l’énergie réverbérée arrivant après l’énergie précoce, que l’on appellera la réverbération tardive, permet quant à elle, d’établir les caractéristiques de l'espace global dans lequel se situe la source : sa couleur sonore, son volume, etc. Cette analyse s'appuie notamment sur la perception conjointe de la longueur de la réverbération et de sa transparence modale : plus la réverbération est longue, plus la salle parait grande, pour autant que les modes de la salle soit suffisamment denses. Une réverbération longue avec des modes isolés, donc peu denses évoquera plus une salle de bain qu'une cathédrale.

La perception des rapports de niveau entre le son direct, l'énergie précoce et la réverbération tardive conduit à une appréciation de la distance du son. Globalement, plus le son s'étire dans le temps, plus il est perçu à une distance lointaine. Le niveau global du son intervient conjointement : plus il est élevé, plus cela rapproche perceptivement les sources

Par l'écoute naturelle, nous percevons donc grâce à ces informations les sons en trois dimensions (avant, arrière, gauche, droite, dessus dessous et en profondeur). Cette capacité d’analyse de l’espace est facilitée par nos mouvements de tête, qui permettent de lever les indéterminations. Si nous tournons la tête vers la gauche, une source sonore placée devant nous se déplace vers la droite, une source placée derrière nous se déplace vers la gauche.

Cette écoute en trois dimensions est importante pour la perception de la qualité sonore. En effet le cerveau distingue ces différentes dimensions et utilise cette propriété pour mieux analyser les sons. Deux sons provenant de la même direction auront tendance à fusionner s'ils comportent des fréquences communes, alors qu'ils seront perçus plus isolés s'ils proviennent de directions différentes. On appelle cette propriété le démasquage binaural. Cette propriété joue un rôle important dans la perception de la réverbération en écoute naturelle et est essentielle pour apprécier toute la complexité du son dans une grande salle de concert, par exemple. Il y a donc un véritable enjeu musical dans la qualité de la représentation du son.

La reproduction de l’espace sonore : stéréophonie, multicanal, binaural et transaural

Tout d'abord, la reproduction du son implique des signaux sonores. Ces signaux acoustiques deviennent par les microphones et les préamplificateurs des signaux électriques sous une forme analogique, puis sont convertis et deviennent des signaux numériques pour être mélangés, traités et réduits au format de diffusion souhaité (stéréophonie à 2 canaux, multicanal, binaural et transaural). Ils sont à nouveau convertis à l'état de signal électrique analogique, puis amplifiés et diffusés par des enceintes acoustiques pour redevenir des sons.

Aucune de ces opérations n'est neutre. La transmission du son implique donc des variations de couleur spectrale et des distorsions. Ces distorsions transforment les variations de formes subtiles créées par la réverbération et suppriment une partie des informations d'espace. La qualité de l'espace sonore dépend donc directement de la qualité du matériel utilisé par l'auditeur pour reproduire le son. Il y a donc un aspect socio-économique à la question de la transmission de l'espace sonore, même si, par exemple au casque, on peut trouver des systèmes de reproduction très satisfaisants pour un prix raisonnable.

La stéréophonie

La stéréophonie est le terme communément employé pour désigner ce que nous devrions nommer la stéréophonie à deux canaux.

Les différences d’information entre ces deux canaux, composées de différences d’intensité ou de différences de temps (indépendantes de la fréquence cette fois), reproduisent en partie les informations que l’on a en écoute naturelle mais pas totalement. Pour une écoute sur enceintes, l’espace sonore se situe entre les deux enceintes et en profondeur. On appelle ces sources, perçues là ou il n'y en a aucune au sens physique du terme, des sources fantômes. L'acoustique du lieu d'écoute joue ici un rôle déterminant [1] pour la perception de la profondeur, la diffusion du signal dans la salle d’écoute provoquant un enveloppement naturel.

La magie du son sur enceinte tient d'ailleurs à l'ambiguïté qu’elles nous font ressentir. Nous les entendons comme des sources réelles si elles diffusent un son direct mais nous entendons un espace différent de celui de la pièce dans laquelle nous sommes si elles diffusent des réverbérations plus longues que celle de cette pièce. Il en résulte un mixte entre la réalité de la diffusion et la fiction de ce qui est représenté, qui est commun à d'autres formes de représentation : peinture sculpture, photo, etc.

Au casque, les sons directs sont localisés entre l’oreille gauche et l’oreille, la plupart du temps à l’intérieur de la tête.

Certains sujets peuvent néanmoins percevoir  le son à l’extérieur de leur tête mais cette capacité plutôt rare est plus généralement associé au son binaural que nous verrons plus tard. On peut en déduire cependant que la stéréophonie possède déjà une partie des informations que l'on peut développer en binaural.

Cette technique a l'avantage de la simplicité puisqu'elle fonctionne au casque et sur enceinte, tout en ne nécessitant que la transmission de deux canaux. Sur un bon système d'écoute, que ce soit au casque ou sur enceintes, elle permet une appréhension du son qui peut déjà être vraiment satisfaisante. Pour autant, elle a ses limites.

Le service audiovisuel du conservatoire de Paris s’intéresse depuis les années 90 au développement de nouvelles techniques de prise de son et de post production permettant de restituer un espace sonore en 3 dimensions plus proche de l’écoute naturelle. Par rapport à la stéréophonie à deux canaux, il existe plusieurs voies d’amélioration.

Le son multicanal

En multipliant les enceintes, on peut à la fois multiplier les directions de provenance des sons directs et créer une réverbération dont la complexité est plus importante. C’est ce que l’on appelle le son multicanal.

L'évolution du son multicanal est liée à l'histoire du cinéma. Même si expérimentalement, de nombreux systèmes ont été testés, ceux qui ont une existence commerciale sont liés à la diffusion des films, du 5.1 au dolby Atmos. Cette culture de l'espace sonore au cinéma s'oppose en partie à la stéréophonie à deux canaux car les conditions d'écoute différent.

Si l'on veut percevoir une image stéréophonique dans toutes ses subtilités, la norme impose une situation d'écoute ou l'auditeur est placé à la même distance des enceintes que celle qui existe entre les enceintes, l'auditeur et les enceintes formant donc les trois sommets d'un triangle équilatéral. Si l'auditeur se déplace sur la gauche, l'ensemble des sources se déplacent plus ou moins sur la gauche et idem à droite. Il existe donc une zone d'écoute idéale ou l'image sonore est correctement restituée, c'est ce que l'on appelle le «sweet spot».

Dans une salle de cinéma, la zone d'écoute est tellement grande que la notion de «sweet spot» ne peut être mise en œuvre. Il faut donc développer des systèmes d'écoute ou l'essentiel de l'esthétique sonore est conservé quelle que soit la place que l'on occupe. D'où l'idée d'une enceinte centrale diffusant les dialogues. Cette enceinte étant une source réelle, l'auditeur la localisera à sa place au centre de l'écran quelle que soit son positionnement dans la salle. De manière générale, l'esthétique de ces systèmes est basée sur des positions de sources moins précises qu'en stéréophonie à deux canaux mais plus résistante à la différence de placement des auditeurs.

La spatialisation des bandes sons a commencée avec un système possédant une enceinte centrale C une enceinte gauche L, une enceinte droite R et un canal d'ambiance S (pour Surround). Le canal Surround est destiné à favoriser l'enveloppement, c'est à dire la sensation que l'action sonore se déroule autour de nous et pas seulement devant nous.

Ce système à progressivement évolué vers deux canaux d'ambiances indépendants gauche et droit Ls et Rs, trouvant son équivalent domestique dans les systèmes 5.1 (LRC Lfe LsRs), le .1 désignant le canal dédié aux très basses fréquences (inférieures à 80 hz) désigné par Lfe.

On peut conjuguer le format 5.1 et l'utilisation des sources fantômes pour développer une imagerie spatiale plus réaliste que la stéréophonie à deux canaux, applicable à la reproduction de la musique. Le déploiement dans l'espace de la réverbération peut par exemple être mieux rendu. Par ailleurs, cela ouvre aussi la possibilité d'élargir l'image frontale en positionnant des sources à gauche de L et à droite de R, créant ainsi des scènes sonores plus larges que ce que l'on peut faire en stéréophonie à deux canaux.

Les systèmes 5.1 différencient mal les côtés et l'arrière. D'où l'idée du système 7.1, avec deux canaux latéraux SL et SR à + ou - 90° et deux canaux arrières LS et Rs à + ou - 150°. Ce système permet des localisations de sources fantômes plus précises sur les côtés et à l'arrière.

Partant de là, il ne reste plus qu'à rajouter de l'élévation pour être réellement en 3D. On peut citer le format 7 + 4, avec 4 canaux à 45° d'élévation, + ou – 45° à l'avant (notés TL pour top L et TR pour top R), + ou – 135° à l'arrière (TRL top rear L et TRR). Mais il existe tellement de variantes dans la disposition des enceintes que les constructeurs ont été conduits à utiliser le mode objet.

L'audio orienté objet (Object Based Audio ou OBA)

Un objet audio est un son dont la spatialité est définie par son azimut et son élévation. Cet azimut et cette élévation peuvent varier au cours du temps et il existe des systèmes permettant d'enregistrer et de relire ces variations.

Pour réaliser cette position en azimut et en élévation sur un système de restitution, il est nécessaire d'insérer un nouveau maillon dans la chaîne audio : le moteur de rendu.

L'industrie du cinéma utilise ces techniques d'audio orienté objet et de moteur de rendu pour ne pas avoir à réaliser plusieurs mixages du même film. Le nombre d'enceintes présentes dans les salles de cinéma dépendent complètement de la taille de la salle et de son niveau d'équipement. Les firmes dolby et DTS utilisent deux systèmes différents basés sur un mélange de multicanal et de mode objet leur permettant de s'adapter à ces différentes salles et de diffuser pour les conditions d'écoute domestiques plusieurs versions du même mix : stéréophonique et 5.1 (et même 7.1 pour DTS).

Il existe maintenant une norme libre de droit : l'Audio Definition Model, permettant de coder notamment du multicanal et du mode objet en adaptant la diffusion à différents systèmes grâce à un moteur de rendu. Ceci permet aussi de lire du 5.1 sur un système 7.1 et vice versa et plus généralement de passer d'un système multicanal à un autre.

L'article en lien [2] décrit les différents systèmes de prise de son permettant d'utiliser ces modes. Le Service audiovisuel du Conservatoire produit des enregistrements depuis plusieurs années de cette façon, en utilisant notamment des rendus lisibles par des systèmes de reproduction courant à deux canaux : le binaural et le transaural et un rendu 5.1 lisible dans les studios d'écoute de la médiathèque du Conservatoire. (lien vers les productions). Ces productions ont été réalisées avec des outils de spatialisation (TranPan, BiPan et MyBino) développés par le Service audiovisuel.

Le binaural et le transaural

Ces deux modes d’écoute sont similaires car ils reproduisent tous les deux les signaux présents au niveau des oreilles en écoute naturelle. Le binaural le fait pour l’écoute au casque, le transaural pour une écoute sur haut-parleur.

La restitution de l’information présente en écoute naturelle est réalisée par un filtrage correspondant à l’action de la tête et des pavillons sur l’onde, associé à un retard, tous deux correspondant à une direction donnée (cf. Fig2). Ces filtrages sont nommés HRTF (Head Related Transfert Function). Ce que l’on cherche à atteindre avec cette synthèse de filtrage, c’est la même sensation sonore que l’on a en écoute naturelle, c’est-à-dire un son provenant de l’extérieur de la tête (externalisation).

Figure 4

Fig 4. Principe du système de filtrage pour obtenir un son binaural (à gauche) Fenêtre d'un moteur de rendu binaural indiquant la position des différents objets (à droite).

L’externalisation est plus aisée sur les côtés qu’en face de soi. Deux facteurs l’expliquent : l’absence des mouvements de la tête et le fait que les modifications de l’onde par l’action de la tête et des pavillons sont propres à chacun.

Pour que l'illusion fonctionne pour chacun d’entre nous, on doit individualiser les HRTF et c’est un point important de la recherche sur le binaural. Par ailleurs, une étude menée au Conservatoire [3],montre que l’on améliore grandement l’externalisation pour les sources qui ne sont pas sur les côtés en utilisant un dispositif nommé “headtracker”, qui suit les mouvements de la tête et qui permet d’adapter les filtrages  de telle manière que les sources restent à leurs place, comme dans la réalité, lorsque l’auditeur bouge la tête.

Le Conservatoire a collaboré à la création d’un moteur de rendu binaural [MyBino] avec headtracker [Hedrot], lui permettant à la fois de poursuivre ses recherches et de produire des contenus audio en OBA. Pour utiliser le headtracker, il est nécessaire de lire un fichier multipiste (multicanal / objet), pour que chacun des sons soit traité en temps réel en fonction de la position de la tête de l'auditeur.

Le transaural

Le principe du procédé transaural est de délivrer un signal binaural pour l'auditeur, tout en diffusant sur enceintes. Sur haut-parleur, le haut-parleur droit délivre une information à l’oreille droite mais également à l’oreille gauche et le haut-parleur gauche délivre une information à l’oreille gauche mais également à l’oreille droite. Pour reproduire un signal binaural, il est donc nécessaire de procéder à une annulation de ces trajets croisés. C’est ce que l’on nomme : Cross-Talk Cancellation, ou CTC. L’annulation des trajets croisés est réalisée par une série de filtres. Cette approche permet de positionner des sources sonores en dehors de la base stéréophonique matérialisée par les 2 haut-parleurs.

Figure 5

Fig 5. Principe du procédé transaural

Le Conservatoire a collaboré à la création d’un moteur de rendu transaural, TransPan [4]. Ce moteur de rendu est optimisé pour donner la meilleure qualité possible d'un point de vue sonore. Les filtres ont été travaillés pour permettre à la fois la meilleure efficacité spatiale et le meilleur respect des timbres.

Ce moteur de rendu possède une sortie binaurale et peut délivrer simultanément les deux types de signaux. On peut par ailleurs utiliser plusieurs moteurs de rendus (Transpan et MyBino, par exemple), en alimentant les deux moteurs avec les mêmes sources.

Conclusion

Le binaural et le transaural peuvent être diffusés sur deux canaux, comme un enregistrement stéréophonique traditionnel.

Certains lecteurs de médias comme VLC lisent le format 5.1 et les conditions de diffusion de la musique évoluent, et parfois rapidement, comme le montre le passage du support physique au streaming. La diffusion en dolby Atmos est par ailleurs une réalité courante impliquant un moteur de rendu. Ces recherches débouchent donc vers des applications.

Au delà de ces applications pratiques, il est important de comprendre comment les médias conditionnent notre perception. S'agissant du Conservatoire, la compréhension de l'action de ce conditionnement sur la perception de la musique est un enjeu pédagogique essentiel.

Références

[1] AES Londres 2000. JC Messonnier ; A Moraud
[2] AES Paris OBA - Méthodes d’enregistrement en Audio Orienté Objet
[3] JASA E. Hendryckx
[4]Sao Paulo, et autres sur Transpan - Utilisation de techniques binaurales et transaurales en prises de son et en post-productions multicanales 5.1.

Les ressources pour la recherche du service audiovisuel

Méthodes d’enregistrement en Audio Orienté Objet

Présenté à la 140th Convention les 4-7 juin 2016 à Paris, France

Auteurs : Jean-Christophe Messonnier, Jean-Marc Lyzwa, Delphine Devallez et Catherine de Boishéraud

Abstract : Le nouveau standard ADM permet de définir un fichier audio comme étant orienté objet. Au milieu de beaucoup d’autres fonctionnalités, l’azimut et l’élévation peuvent être spécifiés pour chaque «objet » audio. Il est alors possible de construire une scène sonore indépendamment du système de reproduction.
Cela signifie que cet enregistrement orienté objet pourra être restitué sur un système 5.1, un système binaural, ou tout autre système d’écoute. Dans le cas d’un système d’écoute binaural, cela donne aussi l’opportunité d’interagir avec le contenu, car un suiveur de position de la tête (headtracker) peut être utilisé pour changer l’information binaurale en fonction de l’orientation de l’auditeur. Ce document décrit comment réaliser un tel enregistrement orienté objet.

Consulter

Surround and 3D-audio production on two-channel and 2D-multichannel loudspeaker setups

Conférence donnée le 19 septembre 2015 dans le cadre de la : 3rd International Conference on Spatial Audio (ISCA), à GRAZ,  Autriche.

Auteurs : Alexis Baskind, Thibaut Carpentier, Jean-Marc Lyzwa, Olivier Warusfel

Consulter

Binaural and transaural spatialization techniques in multichannel 5.1 production

(Techniques de spatialisation binaurale et transaurale en production multicanal 5.1).
Conférence donnée le 22 novembre 2012 dans le cadre de la : 27th TONMEISTERTAGUNG - VDT INTERNATIONAL CONVENTION, Cologne, November, 2012

Auteurs : Alexis Baskind, Thibaut Carpentier, Markus Noisternig, Olivier Warusfel, Jean-Marc Lyzwa

Consulter

Présentations des études des formats d'écoute en multicanal

Réalisées dans le cadre de la 8e Semaine du Son, par le Conservatoire de Paris et l'Ircam.

Ircam, Espace de projection
Vendredi 21 janvier 2011

Consulter

Utilisation de techniques binaurales et transaurales en prises de son et en post-productions multicanales 5.1.

Conférence AES - Sao Paulo – Brésil – mai 2009
Jean-Marc LYZWA : Ingénieur du son
Conservatoire national supérieur de musique et de danse de Paris (Cnsmdp)

Alexis BASKIND : Réalisateur en informatique musicale et ingénieur du son

Consulter

Ears Wide Open - Journées d'études sur l'audio 3 D

Rennes -  11-12-13 mars 2008

Alexis Baskind (IRCAM) et Jean-Marc Lyzwa (CNSMDP) – Utilisation de techniques binaurales/transaurales mixtes en post-production 5.0 et 5.1 : principes esthétiques et illustrations sonores tirées de travaux sur Repons de Pierre Boulez, Atlantis et Shadows de Peter Eötvös

Suite à la conférence donnée par Alexis Blaskind à Rennes lors du colloque organisé par l'AES, la SFA et l'université de Rennes sur l'enregistrement en multicanal, l'université de Rennes met en ligne sur son site internet l'ensemble des conférences des journées.

Réflexion sur la prise de son et la post-production en multicanal 5.1 (2007)

Consulter

La compression du niveau sonore (2006)

La semaine du son organise chaque année des journées destinées à faire découvrir à un large public les différentes problématiques liées au son. Lors de sa troisième édition ( du 10 au 14 janvier 2006) le Conservatoire a participé à la journée autour de la  prise de son multicanal et de la sonorisation à Radio France. L'exposé qui va suivre est une version multimédia de la conférence donnée à cette occasion.

Prise de son et restitution multicanal en 5.1 , problématique d'une oeuvre spatialisée : Répons , Pierre Boulez  (2005)

Consulter

Utilisation de techniques binaurales et transaurales en production multicanal 5.1

7ème forum international du son multicanal - CNSMDP - 4 et 5 novembre 2004

Consulter

Comparaison de systèmes de prise de son multicanaux

mémoire de fin d'étude FSMS (2001)

Consulter

Utilisation d'une rampe microphonique circulaire, pour la prise de son et la post-production de sources sonores réparties sur 360° et destinées à un système de restitution multicanal 5.1

Workshop de la 108ème convention de l'AES-Paris- février 2000

Consulter

Auditory distance perception: criteria and listening room

Jean-Christophe Messonnier and Alban Moraud
Audio Engineering Society - Convention Paper
Presented at the 130th Convention - 2011 May 13–16 London, UK

This paper is the result of a series of listening experiments carried out to investigate the correlation between auditory distance and two criteria : the ratio of direct to reverberant sound energy and the clarity C80. In the first section of this paper, we will determine which of the two criteria is more efficient. The second section compares the values of these criteria when the same signal is played on a well damped control room loudspeaker system and when it is played on a domestic stereophonic loudspeaker system. A second series of listening experiments shows how the auditory distance is perceived in both cases.

Consulter

Compte-rendu des résultats de test de méthodologie d’évaluation de différents dispositifs de captation

Projet BILI - Catherine Colomes (Orange)
Aout 2015

Le but de cette méthodologie est d’amener l’auditeur à localiser sur un dessin ce qu’il entend, aussi bien les sources sonores que leurs éventuels déplacements. Pour cela, un schéma de sa tête est positionné au centre d’une feuille de papier calque posée sur une feuille de papier millimétré.

Consulter

L'audio orienté objet et la scène sonore

L’émergence des techniques de virtualisation ouvrent de nouvelles possibilités de production du son. MyBino est un plug-in développé par le Conservatoire de Paris et l’école Polytechnique permettant de construire une scène sonore virtuelle. Ces techniques relèvent à la fois du binaural et de l’audio orienté objet (Object Based Audio : OBA).

Consulter

Le  head-tracker , une solution pour l’écoute 3D au casque ?

La synthèse binaurale permet de recréer une scène sonore 3D réaliste à l’aide d’un casque audio. Ainsi, en fermant les
yeux, l’utilisateur pourra percevoir un violon en face de lui, une clarinette sur sa gauche, ou encore un avion volant au-dessus de sa tête (contrairement à l’écoute stéréophonique au casque traditionnelle, dans laquelle les sources sonores ne peuvent être perçues qu’à l’intérieur de la tête, étalées le long d’une ligne fictive entre les deux oreilles).

Consulter

Improvement of Externalization by Listener and Source Movement Using a “Binauralized” Microphone Array

ETIENNE HENDRICKX, PETER STITT, AES Associate Member, JEAN-CHRISTOPHE MESSONNIER, JEAN-MARC LYZWA, BRIAN F.G. KATZ AND CATHERINE DE BOISHERAUD

Several studies report a collapse of externalization when listening to binaural content using non-individualized HRTFs. In other words, sound sources tend to be perceived inside the head when they should be perceived outside the head, as in the real acoustic world. A previous experiment, conducted with experienced subjects, revealed that large head movements coupled with a head tracking device could substantially improve the externalization of a speech stimulus,
recorded in slightly reverberant conditions with a six-channel microphone array and then “binauralized” for headphones as six virtual loudspeakers around the subject (one loudspeaker per microphone signal). In the present study a similar experiment was conducted with subjects having no previous experience with binaural audio. Similar improvements were found. In an additional condition the roles were reversed: the subjects’ heads remained stationary while the sound sources were automatically moved around subjects. Results showed that source movements without tracking can also enhance externalization but to a lesser extent than headtracked movements.

Consulter

Influence of head tracking on the externalization of speech stimuli for non-individualized binaural synthesis

Etienne Hendrickx, Peter Stitt, Jean-Christophe Messonnier, Jean-Marc Lyzwa, Brian FG Katz and Catherine de Boisheraud

(Received 5 August 2016; revised 28 February 2017; accepted 2 March 2017; published online 22 March 2017)
Binaural reproduction aims at recreating a realistic audio scene at the ears of the listener using headphones. In the real acoustic world, sound sources tend to be externalized (that is, perceived to be emanating from a source out in the world) rather than internalized (that is, perceived to be emanating from inside the head). Unfortunately, several studies report a collapse of externalization, especially with frontal and rear virtual sources, when listening to binaural content using nonindividualized Head-Related Transfer Functions (HRTFs). The present study examines whether or not head movements coupled with a head tracking device can compensate for this collapse. For each presentation, a speech stimulus was presented over headphones at different azimuths, using several intermixed sets of non-individualized HRTFs for the binaural rendering. The head tracker could either be active or inactive, and the subjects could either be asked to rotate their heads or to keep them as stationary as possible. After each presentation, subjects reported to what extent the stimulus had been externalized. In contrast to several previous studies, results showed that head movements can substantially enhance externalization, especially for frontal and rear sources, and that externalization can persist once the subject has stopped moving his/her head.

Consulter

L’audio orienté objet : une solution face à la multiplicité des formats

COLIN Etienne
Aix-Marseille Université - Département Sciences, Arts et Techniques de l’Image et du Son
Mémoire de Master « Cinéma et Audiovisuel » - 2018-2019
Travail réalisé sous la direction de : Frédéric BELIN - Mars 2019

Aujourd’hui les producteurs de contenus audiovisuels sont en constante recherche de nouvelles expériences utilisateurs pour répondre à la demande. Dans l’optique de diffuser un son toujours plus impressionnant, les producteurs se sont tournés très tôt vers des standards dit plus immersifs. Il en résulte une multiplication considérable des livrables (Stéréo, 5.1, Binaural, AC3 …) pour une même production. Or, tous ces standards d’écoutes sont devenus difficiles à gérer entre eux. L’absence de compatibilité force les chefs opérateurs du son à différencier les workflows et leurs mixages sont détériorés par l’absence d’un dispositif de prise de son adapté et par des downmixs qui altèrent l’immersion et la précision dans l’espace. Le développement du son « orienté objet » semble apporter des solutions concrètes concernant la compatibilité entre les différents formats et l’interopérabilité d’une scène sonore. En effet, le concept d’objet sonore, largement démocratisé ces dernières années incarne son innovation dans l’invariabilité de la scène sonore. Grâce aux métadonnées intégrées à l’objet sonore, les mécanismes de restitution ou moteurs de rendus peuvent reproduire, recréer le mixage en s’adaptant aux conditions de restitution. Son fonctionnement implique cependant un bouleversement dans la manière de produire révolutionnant ainsi la chaîne de travail, des dispositifs de prise de son aux systèmes de restitution. L’enjeu d’une architecture de référence pour la production orientée objet contribuerait à évangéliser les professionnels du son quant aux potentialités créatrices offertes par cette nouvelle approche mais aussi à les initier aux nouveaux outils ainsi qu’aux nouvelles manières de produire qui en découlent. Outre certains défis techniques et la mise en concurrence des sociétés privées pour un standard unique, le véritable enjeu de l’implémentation d’un modèle objet repose sur la mise en place d’une économie et d’une culture de production en mode objet.

Consulter