La consistencia de personajes ya es difícil en imágenes fijas. En video, es brutal. Un corto animado de 90 segundos típicamente está construido a partir de 25–35 planos separados, cada uno con su generación de keyframe seguida de una pasada de animación. Sin un anclaje fuerte, tu protagonista parece otra persona en los planos 1, 12 y 27 — y el público lo nota al instante, porque las caras en movimiento son aún más diagnósticas que las caras en estático.
Este post va de cómo mantener al mismo personaje en 30+ planos animados con IA: por qué el video empeora el problema, la distinción crítica entre consistencia de keyframes y consistencia de animación, y cómo el pipeline de Lumora resuelve ambas.
Si quieres la teoría general de consistencia de personajes en todos los formatos, empieza por la guía completa. Este post se centra en lo específico del video animado.
Por qué la consistencia en video con IA es brutal
Una novela tiene diez ilustraciones. Un cómic tiene veinticuatro páginas. Un corto animado tiene treinta y pico planos, y cada plano se compone de:
- Un keyframe — una imagen fija que define cómo se ve el plano en su instante inicial.
- Una pasada de animación — habitualmente 4–8 segundos de movimiento generados desde ese keyframe.
- Opcionalmente, un segundo keyframe para planos que necesitan una pose final concreta.
Ya son 30–60 imágenes fijas que tienen que compartir una cara. Pero hay más:
- Los ángulos de cámara varían enormemente. La animación pide picados extremos, dolly-ins, planos por encima del hombro, acción de cuerpo entero — la mayoría no están cubiertos directamente por una ficha de 3 vistas.
- La iluminación cambia entre escenas. Exterior diurno, interior nocturno, luz de fuego, fluorescente duro — cada condición empuja al modelo a re-renderizar al personaje con suposiciones distintas de sombreado.
- El movimiento añade deriva. Aunque tu keyframe clave la cara, el paso de animación puede suavizar rasgos, emborronar caras en movimientos rápidos, o inventar detalles en los fotogramas intermedios.
- Veo y modelos similares no aceptan imágenes de referencia. El paso de animación trabaja solo desde el keyframe — no se le puede pasar la ficha del personaje directamente.
Este último punto es el que sorprende. Incluso los mejores modelos actuales de generación de video (Veo 3.1, Kling 3, Seedance) animan desde un único frame de entrada. Si ese frame es inconsistente con el plano anterior, ningún prompt inteligente en la etapa de animación lo va a arreglar. Todas tus batallas de consistencia se ganan o se pierden en la etapa de keyframe.
Consistencia de keyframes vs consistencia de animación
Son dos problemas distintos que se confunden. Resolverlos requiere dos estrategias distintas.
Consistencia de keyframes es "¿coincide la cara del protagonista en los 30 keyframes que voy a animar?" Es el mismo problema que en cómic, pero con más planos y ángulos de cámara más variados. Se resuelve con un fuerte condicionamiento por imagen de referencia en la generación del keyframe.
Consistencia de animación es "¿se mantiene estable la cara del protagonista durante los 4–8 segundos de movimiento generados desde un único keyframe?" Esto lo resuelve el propio modelo de video — es una propiedad de cómo de bien preserva la identidad durante la generación temporal. La mayoría de los modelos actuales lo hacen bien dentro de un solo plano. La deriva ocurre entre planos, no dentro de ellos.
Implicación práctica: si tu cara cambia entre el plano 5 y el plano 6 pero se mantiene estable dentro de cada plano, tienes un problema de consistencia de keyframes, y la solución está aguas arriba del paso de animación. Aquí es donde casi siempre falla el video con IA.
Cómo Lumora fija la identidad en 30+ planos
El pipeline de video de Lumora pasa por seis etapas: preparación, planning, storyboard, keyframes, animación, ensamblaje. La maquinaria de consistencia se monta en planning y se aplica en keyframes. Así funciona.
Planning: se generan y persisten las fichas de personaje en storage. Durante la fase de planning de un proyecto de video, Lumora genera una ficha de 3 vistas para cada personaje nombrado (frontal, 3/4, perfil, fondo neutro, en el estilo del proyecto). Mismo enfoque que en cómic — pero con una diferencia clave: las fichas de video también se guardan en Supabase Storage en una ruta estable, no solo en caché de memoria. Esto importa porque el pipeline de video corre a través de varios jobs en segundo plano durante minutos, y la caché en memoria no sobreviviría entre ellos.
Planning: también fichas de localización. El video estresa la consistencia de localización de una forma que las novelas y los cómics no — una escena rodada desde tres ángulos distintos tiene que seguir pareciendo la misma habitación. Lumora genera una "ficha de localización" aparte por cada escenario importante del video, también persistida en storage.
Keyframes: las fichas se hidratan y se adjuntan a cada plano. Cuando arranca la etapa de keyframes, carga todas las fichas de personaje y localización desde storage de vuelta a la caché del servicio de imagen. Luego, para cada plano del storyboard, la llamada de generación del keyframe incluye:
- El prompt del plano (acción, encuadre, atmósfera).
- La(s) ficha(s) de personaje de cada personaje en el plano.
- La ficha de localización del escenario.
- Una instrucción de usar las referencias para mantener consistencia.
Son típicamente 2–4 imágenes de referencia por llamada de keyframe, dentro del presupuesto de 5 referencias de Nano Banana 2. Cada uno de tus 30 keyframes se genera con los mismos anclajes. La deriva se previene de forma estructural, no por confianza.
Animación: Veo anima los keyframes consistentes. Con los keyframes ya cerrados, la etapa de animación (Veo 3.1) toma cada frame y produce 4–8 segundos de movimiento. Como cada keyframe ya representa al mismo personaje, las animaciones son consistentes internamente y consistentes con los planos vecinos — no porque Veo sepa nada del personaje, sino porque el input que recibió ya estaba fijado.
Ensamblaje: ffmpeg pega los clips. No hay mecanismo de consistencia aquí — para esta etapa la identidad visual ya quedó determinada aguas arriba.
¿Y si un plano concreto deriva?
A veces uno de cada treinta keyframes queda ligeramente fuera — quizá el ángulo era demasiado extremo, o el prompt de acción peleó con la referencia. Lumora soporta regeneración por plano. Puedes regenerar ese keyframe (y re-animar ese plano) sin tocar los otros veintinueve.
La llamada de regeneración usa exactamente las mismas fichas de personaje y localización. Esta es la propiedad clave: la regeneración es consistente con el resto del video, no una tirada nueva de dados. Si arreglas el plano 17, el plano 17 seguirá encajando con los planos 16 y 18.
Eso es lo que hace viable la regeneración por plano como workflow. Sin consistencia anclada en referencias, regenerar un plano arriesgaría romper a sus vecinos. Con ella, puedes iterar sobre planos individuales hasta que el video entero quede bien.
Modos de fallo específicos del video
Aun con el pipeline haciendo lo correcto, hay patrones que dan problemas:
- Ángulos extremos sin vista de referencia equivalente. Si todos los planos del storyboard son picados cenitales pero tu ficha es frontal/3-4/perfil, el modelo tiene que extrapolar. Añade una vista de referencia para el ángulo poco común.
- Acción muy rápida en varios planos seguidos. Una escena de persecución con planos que ocurren todos en 0,5 segundos de tiempo narrativo presiona al modelo de animación a inventar detalles. Bajar un poco el ritmo suele mejorar la consistencia percibida.
- Muchos personajes por plano. Misma regla que en cómic: dos personajes nombrados por plano es el techo seguro. Tres o más arriesga mezcla de rasgos.
- Inconsistencia de estilo/mundo en los prompts. "Realismo cinematográfico" en el plano 1 y "render estilo Pixar" en el plano 2 producirán dos mundos distintos y dos versiones distintas de tu protagonista. Fija el estilo visual en la etapa de planning y deja que el pipeline lo aplique.
- Saltarse la revisión del storyboard. La etapa de storyboard es donde puedes detectar configuraciones imposibles de personajes antes de que lleguen al (caro) paso de keyframes. Úsala.
Checklist práctico para consistencia en video
- [ ] Cada personaje nombrado tiene una ficha de 3 vistas generada en planning y revisada.
- [ ] Cada localización importante tiene una ficha generada en planning.
- [ ] Hay fotos de referencia subidas para cualquier personaje que deba parecerse a una persona real.
- [ ] El storyboard se revisa antes de lanzar la generación de keyframes.
- [ ] Los planos con tres o más personajes nombrados están señalados.
- [ ] Los ángulos de cámara extremos tienen una vista de referencia que los cubre, o se aceptan como más libres.
- [ ] El estilo visual queda cerrado en planning y no se cambia.
Próximos pasos
La razón por la que la mayoría de la animación con IA se siente rara es que nadie está resolviendo la consistencia de keyframes con rigor. Los modelos de animación son buenos. Los modelos de imagen son buenos. La disciplina de generar la ficha, persistirla por todo el pipeline, y adjuntarla a cada llamada de keyframe — ahí es donde deja de ser una demo técnica y empieza a ser un corto terminado.