Escardo.com - Animación de Personajes 3D
Titulo
inicio
foros
club
tienda
Buscador
Noticias
Suscripcion
Cursos

Principios para la Animación de Sincronización Labial (LipSync)

15 09 2006

Icono_LipSincLango.jpgEl animador Keith Lango ha publicado hace unos años un excelente artículo sobre LipSync (Sincronización Labial). El enfoque que brinda es muy acertado y permite realizar buenas animaciones rápidamente para que nuestros personajes hablen de forma correcta. Me he tomado el trabajo de traducirlo por primera vez al español. Cualquier correción o aporte a la traduccción es bienvenido. Espero que les sea de utilidad. Victor.

Titulo_LipSyncKeithLanngo.jpg

Principios para la Animación de Sincronización Labial (lipSync)

Título y texto original: “Principles for LipSync Animation”
Autor: Keith Lango – KLangoAnimation.com | Traducción: Víctor Escardó – Escardo.com

Introducción

Algunas personas recientementeme me han pedido (Ok, más que algunas) que tratara la animación facial y la Sincronización Labial (lipSync en Ingles). La mayoría de los pedidos vienen de amigos que leyeron mi tutorial “Pose a Pose: Keyframing Organizado” quienes desde entonces desean algunas ideas para realizar la Sincronización Labial y de la animación facial.

Originalmente les conteste que para mí la animación facial y la sincronización labial eran áreas de mi animación que seguían siendo indefinidas para mí. Lo que quiero decir es que no me había tomado el tiempo de sentarme y realmente pensar en cómo lógicamente encaro a la sincronización labial y a la animación facial. Siempre fue algo cómo “pronto, hecho”, dejándolo fluir dentro de mí. Me gusta poder hacer algo así como una pasada simple hacia delante de la animación facial y de sincronización labial, con otra pasada simple de ‘arreglos’ y poder decir esta listo. Admito que no planifico mi sincronización labial. Y tampoco paso un montón de tiempo analizando mi animación facial en su totalidad. Lo que si realizo es marcar algunas emociones de partida que quiero capturar, pero no realizo nada cercano a lo mecánico y organizado del método pose a pose para el trabajo con el cuerpo del personaje. Básicamente la animación facial y la sincronización labial fueron los últimos bastiones de sentimiento artístico para mí, y admito que era renuente a cuantificar ese pequeño pedacito de magia restante en mi arte. Pero recientemente he tomado algunos pasos hacia realmente cuantificar estas cosas.

Como tal, tengo algunas ideas sobre la sincronización labial que siento que ustedes pueden estar dispuestos a comprobar. Antes, déjenme claramente indicarles que no me considero una autoridad en el tema. Mis pensamientos son tan solo míos, la gente puede discrepar con mi forma de enfocar la animación facial. Pero el propósito de mis esfuerzos es intentar dar algunos “ganchos” para que los animadores utilicen. Deseo evitar que estos pensamientos surjan como reglas o algo parecido. Son simplemente las ideas y las teorías las que pueden ayudar a alguna gente a pensar sobre la sincronización labial de una manera distinta. Con la advertencia del caso, expondré mi enfoque particular a la sincronización labial.

Este trabajo no es exhaustivo, pero comienza a mostrar como PIENSO conceptualmente acera de la animación de sincronía labial. Estoy limitando los comentarios en este trabajo específicamente a la animación de sincronización labial. Actualmente, estoy desarrollando mis ideas en un documento sobre la animación facial en su totalidad, la suma de estos trabajos permitirán un acercamiento holístico a la animación facial de personajes con diálogos convincentes y emoción en la actuación.

En el Comienzo…
La sincronización labial es una algo difícil de conseguir al principio. Esto lo demuestra un ejemplo clásico de cómo es el enfoque de la mayoría de la gente de entrada. La tendencia es ésta:

1) Realizar targets (Morph Targets) de sonido para los “sonidos” de por ejemplo la M, la E, la S, la F (Algunos van más allá y hacen targets para “sonidos” como H, la G, la J y la Z).
2) Escuchar la pista de audio (la grabación de voz)
3) Para cada sonido que escuchan, dan al “sonido” con un target cercano o igual al 100%.
4) Realizan una representación (render) de la animación de sincronización labial.
5) Ven a la boca sacudirse fuera de control.
6) Se preguntan que hicieron mal.

Por lo menos así me sucedió al principio. El problema es ser demasiado literal en la animación de un personaje hablando, intentando animar letras en las palabras, en vez de solamente acentuar los sonidos principales que son necesarios para comunicar el “idea” del dialogo.

No hay cosa tal como letras en los diálogos…
Fíjense como en el párrafo superior coloco la palabra “sonido” entre comillas. Esto es porque un error común en los principiantes es asociar LETRAS con SONIDOS.

Principio #1: Las letras no son sonidos. Los sonidos no son letras. No hay letras en la animación de sincronización labial.

Tienen roles similares, pero en forma divergente. Las LETRAS son símbolos representados en una página (con un sonido correspondiente arbitrariamente asignado) que cuando se colocan juntas forman palabras, que comunican un pensamiento. Pero las letras no están hechas para el habla. Ellas están hechas para la escritura. Y no animamos escritura, si no que animamos diálogos. Los sonidos son para el dialogo pero no nos sirven para escribir. ¿Ves las similitudes y diferencias? Así cuando animas un dialogo no animas letras. No hay letras en el dialogo, solo sonidos, y la figura (forma) que nuestra cara toma para hacer dichos sonidos.

Se que esto suena como un argumento de un estudio semántico, pero créanme, la diferencia es real. Y cuando aprendes a enfocar la animación de sincronía labial desde una perspectiva de animar formas de sonido en vez de letras, tu mundo será un lugar mucho mejor.

¿Qué significa esto para la animación?
Tomemos un ejemplo: la línea de dialogo “you hafta get” (Nota de Traductor: “you have to get” en modo coloquial de hablar) de la pista de audio de Noviembre de 2001 del Club de los 10 Segundos Escuchar Audio en Mp3 (110Kb) toma aproximadamente 25 cuadros en decirse. A primera vista, parece que deben estas las siguientes claves para la frase:

Y (una forma fruncida)
Ooo
H
Aa
V
T
Uh
G
Eh
T

Esta es una interpretación muy literal de lo que lleva mostrar a una persona diciendo “you hafta get”. Pero si te adelantas y realizas Keyframes (Nota de Escardo.com: cuadros claves o llaves) de esa forma, pronto te darás cuenta que esto resultará un una boca que se sacude mucho cuando es animada. Algunas de estas poses se verán en pantalla por solo un cuadro, lo cual es demasiada información y no hay tiempo suficiente para el espectador de interpretarla. Un análisis rápido mostrará que vas de una forma/figura de boca que es bastante abierta (“Ah” en “hafta” a una muy cerrada (la F en “hafta”) y luego a una abierta nuevamente (para el fina de “hafta”. El resultado es una boca saltando de abierto a cerrado volviendo a abierto en solo 3 cuadros. Amigos, eso no es gracioso de ver.

¿Pero que hay acerca de mi letra …humm… quiero decir Formas de Sonido?
Generalmente los principiantes crearán un “fonema” el cual es una replica exacta de la cara de uno diciendo una ‘letra’ en forma aislada. Por lo que creamos el fonema E para decir la E por si misma. Y modelamos fonemas “K” basados en nuestra propia cara en frente a un espejo diciendo “Kuh”. De primera eso parece lo suficientemente lógico. El problema con esto, es que cuando dices el sonido “t” por si solo (‘tuh’ en ingles), tu cara no parece de ninguna forma como que digieras algo como “Skate”. Y esa “t” en “Skate” le da una forma a la cara que es completamente diferente a la forma de sonido de “t” en “petstore”. Y ESA “t” es muy diferente a la forma de la “t” cuando dices “goatee”. (Nota de Escardo.com: Piensa en Español la letra “t” en Tomar, Atar, Hasta y Tío).

Principio #2: Las formas de la boca para los sonidos deben ser animadas en contexto.

La forma de sonido que precede afecta a la forma de sonido actual. De igual modo, la siguiente forma de sonido es anticipada por la forma de sonido actual.
Así las formas deben presentarse todas en contexto con la forma/sonido que las precede y la que la sigue. Cuando te quedas atorado en la idea de hacer todos los sonidos “t” en la pista de sonido de la misma forma, independientemente del sonido/forma anterior o siguiente en el contexto del dialogo, estas estableciendo una boca que salta cuando es animada. Acuérdate Regla número 1: Animar dialogo no es animar letras. Es animar el “flujo” de formas que son necesarias para representar los sonidos dentro de lo que se esta comunicando.

OK, Señor Gracioso. ¿Cómo debo animar la Sincronización Labial (Lipsync)?
La mejor estrategia es interpretar el dialogo, capturar los elementos esenciales de la comunicación como fuerón grabados en la pista de sonido. Agudiza tus oídos y trata de captar el sentimiento general del dialogo.
Tomemos una mirada a la historia del arte.
Por muchos años hasta finales del siglo IXX, el esfuerzo en el arte del renacimiento fue una recreación meticulosa y precisa de la realidad. El realismo era la meta, y lo leteral en interpretar una pintura era la norma. Luego un grupo de artistas tuvieron la idea de capturar el sentido global de una imagen. Ellos comenzaron a interesarse menos en capturar cada hoja en un árbol, pero comenzaron a focalizarse en como la luz, sombras y tonos de colores proyectaban ese árbol en otro reino. Este nuevo reino de ver fue un reino interpretativo donde las hojas no preocupaban como si la forma, el color, el tono, el contraste. En primera instancia estos artistas fueron ridiculizados como artistas perezosos, demasiado vagos para preocuparse por los detalles. Pero pronto el mundo se hizo de estas nuevas pinturas y se asombró de ver tal belleza donde antes solo había hojas. La era del Impresionismo nació, y todos estamos mejor por eso.

Pero ¿Cómo se aplica esto a nosotros y la Sincronización Labial?
Así es cómo: Asi como los pintores impresionistas consiguió escapar de un realismo literal en capturar una imagen, nosotros necesitamos también tener un enfoque impresionista cuando de animación de Sincronía Labial se trata.

Principio #3: Interpreta la animación de Sincronización Labial como un Impresionista.

Si en tu animación puedes obtener las impresiones principales, puedes dejar las pequeñas cosas de lado si lo deseas. Así como un pintor impresionista sugeriría un conjunto de hojas con un solo toque de pintura de su pincel, tu también deberías permitir que las palabras y las formas de sonido se unan junto a la próxima palabra o forma de sonidos. Mezcla los targets de morph faciales en forma conjunta para seguir un flujo. Apártate de mostrar hojas y comienza a mostrar contraste y forma. Hablar es más bien presentar un pensamiento fluyendo que un encadenamiento mecánico de letras.

Impresionismo aplicado al trabajo real de Sincronización Labial …
Miremos nuevamente nuestra frase de ejemplo- “you hafta get”. Una interpretación más impresionista sería enfatizar los acentos principales siguientes:

Ooo
aaFF
Eh

Adelante, di en voz alta “Ooo” como en “scoop”, “aaFF” como en “alter” y “Eh” como en “pet”.

Ooo-aaFF-Eh.

Suena mucho como “you hafta get”, ¿No es así?
Ahora ve más halla.
Agarra un espejo de mano.
Ahora, cómodamente (ej. No lo actúes o sobreactúes), solo di “you hafta get”
Mira como se ve tu boca cuando lo dices una y otra vez.
Ahora, di “oo-aaFF-eh” unas veces más.

¿Ves cuan parecidas son las dos expresiones al verlas decir? ¿Quieres otro ejemplo de este mismo principio?

Di en un espejo “I love you” (NT: Te amo)
Luego di “Elephant Shoes” (NT: Zapatos de elefante)

¡Desconocías que la conexión entre el amor y el calzado de los paquidermos fuera tan cercana!

El Diablo esta en los Detalles…
Demos una ojeada más de cerca a esto, desde el punto de vista de la animación de Sincronización Labial. Para la frase “you hafta get” hay una pose especial junto con dos poses principales abiertas y dos poses principales cerradas.
La pose especial es la -ooo- fruncida en el comienzo de “you”.
La primera pose principal abierta es la “aa” en el comienzo de “hafta”.
La segunda pose principal abierta es la “Eh” de “get”.
Asimismo, la primera pose principal cerrada es la “FF” de “hafta”.
La segunda pose principal es la T en “Get”. (No es exactamente una pose cerrada, pero es lo suficientemente cerrada para nosotros para definirla así, ya que es más cerrada que abierta).

De todas maneras, eligiendo hacer nada más que pegar en estas poses abiertas y cerradas puede obtener casi todo lo que necesitas. (Caramba!, los Muppets pasaron inadvertidos durante más de 30 años!). Estos blancos a los que apuntamos son como las amplias pinceladas en una pintura impresionista. Ellas definen la forma, el contraste, la figura y la dirección. Los detalles de textura vienen luego con las elecciones especificas que tú realizas encima de las pinceladas amplias en formas de poses abiertas y cerradas y los tiempos (Timing).
Las poses abiertas y cerradas son los cimientos para luego los detalles más específicos.

Principio #4: Capta las poses abiertas y cerradas de forma correcta y construye a partir de ellas.

Aun si lo único que haces adecuadamente es colocar las formas abiertas, cerradas y amplias de la boca en el tiempo correcto, ya tienes más del 75% del camino hacia una buena Sincronización Labial. Puedes conseguir mucho de muy poca animación de sincronía labial. Y si lo dudas, personajes simples animados con bocas proyectadas sobre ellos con mapas de textura, como en la serie “Veggietales” (Nota de Escardo.com: Serie para niños con personajes con forma de verduras), la cual demuestra que esto es cierto.

Siendo específico…
Aquí un análisis sobre algunas elecciones concretas…
Querrás comenzar dejando que el “Yuh” de “you” fluya hacia una pose más abierta “aa” al comienzo de “hafta”. Olvida el especifico “ooo” al final de “you” porque no es muy fuerte. Esta allí, pero se alcanza a decir mientras la boca esta efectuando una transición hacia el comienzo de “hafta”. Básicamente se articula hacia la próxima palabra.

La H de “hafta” es sepultada en la parte de atrás de la garganta, de tal manera que los labios no necesitan mostrarlo. Por lo que omite mostrar un forma de sonido (target de morph) específico para la H.

Escogiendo la moderadamente fuerte “aa” de “hafta”, da en el blanco con la F por dos cuadros para permitir leerla. Es la pose cerrada principal de la frase, por lo que necesita alinearse y leerse claramente.

Luego saltea por completo la “ah” del final de “hafta”, así como la G de “get”. Ambas suceden durante el aliento (inhalación), ellas quedan en la transición desde la FF hacia la Eh acentuada de “get”.

Da en el blanco de la última pose abierta “Eh”

Luego termina con una forma de boca apropiada, casi cerrada, para percibir la idea de una T.

Básicamente ahora has animado “Ooo-aaFF-Eht”; y ¿Sabes que? Es bastante. La mejor parte es que fluye, se siente natural y no se sacude saltando de abierto a cerrado.

Debe haber más. ¿Qué hay sobre aquellas T y otras cosas?
La respuesta corta a dicha pregunta es: no transpires solo que lo necesites. Para nada hable de la lengua en todo esto. Pero si tu personaje tiene una lengua, entonces puedes obtener todas las formas de sonido del interior de la boca que necesites con ella. Las formas de sonido del interior de la boca son (NT: En Ingles):

L
Th
T
K
G (con fuerza)

Así que agrégale el trabajo de lengua aquí, manteniéndote impresionista como en todo lo demás, y podrás tratar las ‘pequeñas cosas’ fácilmente. Un buen consejo es realizar los movimientos de lengua muy rápidos. No hagas que la lengua le tome más de 2 cuadros de ir de una posición a otra, solo que tengas una razón específica. Si no le parecerá a todo el mundo que tu personaje esta diciendo el sonido “LL”. La palabra “bad” (malo) se transforma en “bald” (pelado), “Good” (Bueno) se transforma en “gold” (oro). Mantén la lengua ligera y rápida, como tu ingenio.

Diversos consejos, trucos y principios…

1) No ir de totalmente abierto a cerrado en 1 cuadro y viceversa. Definitivamente no ir de abierto-cerrado-abierto en 3 cuadros.
2) No mantengas las formas de sonido estáticas. Una forma de “Ah” debería cambiar a una ligeramente diferente forma de “Ah” mientras se mantenga.
3) Mantener las M y las F por 2 cuadros. Si esta ajustado, róbalo del sonido previo
4) Tener ojo en no hacer lineal el ir de una forma de sonido a próxima.
5) Coloca las formas de sonido por lo menos 2 cuadros antes que el sonido se escuche. Los humanos vemos las cosas más rápidas que lo que escuchamos, por lo que tomamos las pistas de la forma antes que el sonido, por lo que tenemos pistas de la forma antes que el sonido.
6) Rompe los ángulos de la boca. Podemos hablar y sonreír, hablar y bostezar, hablar y estar serios, etc.
7) Los dientes superiores no se mueven. Están unidos al cráneo.
8) La mandíbula rota, no se desliza, en personajes con áreas claramente definidas de cuello y cabeza.
9) Cuando construyas formas de sonido no te olvides de los de las mejillas y de la nariz. Las mejillas se mueven mientras hablamos, como también lo hace la nariz. Las mejillas y la nariz son estupendos conectores en la animación facial, cruzando el puente desde la animación de la boca a los ojos y a la animación de las cejas. Manteniendo la nariz y las mejillas en acción tú unes la cara del personaje, creando un personaje mucho más creíble el cual puede actuar.
10) No tengas miedo de ir al extremo. Evita el síndrome de Princesa-Fiona-Final-Fantasy(c) Mantén la energía de la pista de sonido cuando realizas las formas de sonido. Mira a los que trabajan en la TV haciendo anuncios. Esas caras si que se mueven nena!

Antes que te vallas…
Espero que esto haya ayudado a algunos. Hemos analizado una frase para este artículo y estoy seguro que todo tiene sentido ahora para esa frase :0)
Ahora el truco es para ti aprender como adaptar esta forma impresionista de pensar en otras frases de una manera convincente y que fluya, que se sienta natural y que tenga vida. Mi análisis te puede llevar en la dirección correcta, pero la experiencia es el mejor profesor.

– keith


Acciones

Informaciones