12 · Audio Formats

12 — Audio Formats

Versión: 0.1 Última actualización: 2026-04-23 Status: 🟡 Draft

Specs de producción por tipo de audio. Coordinar con 11-audio-menu.md (qué audios hay) — este doc cubre cómo suena cada uno.

Voces — el cast fijo

El Maestro

Rol: Senior engineer con años de AI en producción. Calma, precisión, experiencia pragmática.
Voz Gemini TTS: Enceladus (masculina cálida, tono grave medio) — alternativa: Algenib
Pace: moderado, pausas intencionales
Vocabulario: técnico pero no pretencioso; usa analogías cuando aterrizan
Cuándo toma el lead: explicaciones conceptuales, frameworks, decisiones de arquitectura

Chombi

Rol: Alter ego del learner. Curioso, auto-referencial, hace las preguntas reales del audience.
Voz Gemini TTS: Zubenelgenubi (la misma voz que Guerra de Tokens — continuidad de marca personal)
Pace: ligeramente más rápido, natural, con reacciones
Vocabulario: casual mexicano pero sin slang fuerte (lo fuerte queda en GdT)
Cuándo toma el lead: preguntas, interrupciones cuando algo no cuaja, celebraciones cuando conecta

Narrador (solo para formatos específicos)

Rol: voz neutral para formato documental / monólogo
Voz Gemini TTS: Schedar (neutral, clara) o reutilizamos a Maestro
Pace: variable según ritmo del relato
Cuándo: Caso Real (semi-documental), Changelog Express (monólogo seco)

Calibración de tono (escala 0-10)

Formato	Tono	Qué significa
Core lesson	6	Dos colegas en coffee shop, humor sutil, foco en aprendizaje
Deep Dive	6	Mismo tono core, más denso
Caso Real	5	Documental light — más narrativo, menos conversacional
Q&A del día	7	Más casual, se permite tangentes breves
Changelog Express	4	Seco, denso, “boletín”
Weekly Synthesis	7	Más relajado, se permite anécdotas y opiniones

Contexto escala: 2=cátedra universitaria, 4=Huberman, 6=Latent Space, 9=Guerra de Tokens, 10=stand-up.

Formato detallado por tipo

Core lesson (15 min)

Format: Dialog 2 voces — Maestro (lead) + Chombi (proxy learner)

Ratio: ~65% Maestro / ~35% Chombi (Maestro explica más)

Estructura de diálogo:

Maestro: [abre el concepto con claridad]
Chombi: [reacciona, aterriza al learner]
Maestro: [ejemplo concreto]
Chombi: [pregunta específica que profundiza o clarifica]
Maestro: [responde + conecta con aplicación]
Chombi: [meta-comentario o conexión a algo real]
... loop ...

Recurring segments (en cada lesson):

“Lo que no sabías” — revelation moment, el hidden feature del día
“La línea que importa” — 1 línea de código/config que resume la lesson
“El anti-pattern” — qué NO hacer (aprende de error ajeno)

Reglas de escritura:

Párrafos de 2-4 oraciones (no monólogos largos del Maestro)
Interrupciones naturales de Chombi cada 30-45 segundos
Cero referencias a “escuchas”, “audiencia”, “amigos” — es una conversación, no presentación
Cero jerga corporativa
Español México, naturalidad sobre slang

Deep Dive (25 min)

Format: Dialog 2 voces — mismo Maestro + Chombi

Ratio: ~60% Maestro / ~40% Chombi (Chombi interrumpe más, pide más aclaraciones)

Estructura:

0-3 min: context — “ya vimos X en el core, ahora profundizamos Y”
3-18 min: exploración de edge cases, alternativas, contextos reales
18-22 min: consolidación + qué se lleva el learner
22-25 min: conexión a capstone / a próxima lesson

Diferencia clave vs core:

Core introduce concept → Deep Dive lo presuriza
Core usa 1-2 ejemplos → Deep Dive usa 4-6
Core omite controversias → Deep Dive las aborda

Reglas de escritura:

Se permiten referencias cruzadas a lessons pasadas
Se permite introducir términos “pro” (con explicación)
Chombi puede “no entender” algo y pedir explicación — el learner también

Caso Real (10 min)

Format: Narrativa semi-documental

Estructura:

Narrador: [setup de la historia]
Narrador: [protagonista/empresa, qué intentaban]
Narrador: [el problema con detalles verificables]
Narrador: [cómo usaron el concepto de la lesson]
Maestro (breve): [reacción técnica clave]
Narrador: [resultado / métricas]
Chombi (breve): [conexión a nuestro contexto]
Narrador: [cierre + lección]

Ratio: ~75% narrador / ~12% Maestro / ~13% Chombi

Reglas:

Historia real con fuentes verificables citadas en transcript
Tono narrativo, no dialog completo
Ejemplos OK: Cursor Composer, Devin, Stripe AI, Anthropic customer stories
NO inventar detalles — si no tenemos el dato, lo omitimos

Q&A del día (10-15 min)

Format: Dialog casual 2 voces — Maestro + Chombi

Ratio: ~50/50 — conversación balanceada

Estructura:

0-1 min: intro, qué preguntas cubrimos
1-12 min: 2-3 preguntas, ~4 min cada una
12-15 min: preguntas frecuentes rápidas (rapid-fire 30 seg cada una)

Reglas:

Preguntas anónimas de learners reales
Respuestas con concreción — cita lesson, cita fuente
Se permite admitir “no lo sé, lo investigo” cuando aplique
Tono más ligero — es sobremesa técnica, no clase

Changelog Express (5 min)

Format: Monólogo seco — Narrador (o Maestro solo)

Estructura:

Narrador: "Del <fecha>: <X cosa pasó>."
Narrador: "<Contexto mínimo — 2 oraciones>."
Narrador: "<Impacto en nuestro curriculum: conecta con lesson Y>."
Narrador: "<Next>."

Reglas:

Zero fluff
Zero opinión fuerte — reporte factual
Links en transcript SIEMPRE
Si el release no conecta con ninguna lesson actual, se omite del changelog (no cobertura por cobertura)

Weekly Synthesis (45 min)

Format: Dialog 2 voces — tono 7/10 (más relajado)

Ratio: ~55% Maestro / ~45% Chombi

Estructura:

0-5 min: recap cariñoso de la semana (“esta semana vimos X, Y, Z”)
5-20 min: pattern emergente — qué tema cruzó lessons, qué no aterrizó
20-30 min: discusión abierta — opinión del Maestro, reacción del Chombi
30-40 min: Q&A largo — 2-3 preguntas profundas
40-45 min: preview de semana siguiente + reto de weekend para el learner

Reglas:

Más libertad narrativa — pueden divagar, volver, conectar
Anécdotas personales de producción OK
Humor: sutil pero permitido (timing, no slang)
Weekend vibe, no pressure

Specs técnicos TTS

Modelo

Primary: gemini-2.5-pro-preview-tts (multi-speaker)
Fallback: gemini-2.5-flash-tts si Pro rate-limited (~10× más barato, calidad suficiente para ambient)

Formato archivo

Container: MP3
Bitrate: 128 kbps (stereo balance between size and quality)
Sample rate: 44.1 kHz
Channels: mono (voces solas) / stereo (cuando hay música o sting)

Section markers (en script source)

[PAUSA] — silencio de 1-2 segundos (entre secciones)
[STING] — el audio-logo de la academia (1-2 segundos)
[MAESTRO: confident] — tag de entrega opcional
[CHOMBI: reflective] — tag de entrega opcional

Markers se quitan antes del TTS pero dan pistas al generador y al writer.

Estructura multi-section

Para lessons largas, el script se divide en secciones de máximo 6000 caracteres (límite práctico del TTS API). Cada sección se genera independiente y se concatena al final con stings entre secciones.

Post-processing

Normalize: loudness a -16 LUFS (broadcast standard podcast)
Intro: logo sonoro de Academia Agentes (3 seg) al inicio
Outro: transición suave + call to action (“haz tu exercise en la app”)
Transitions: sting entre secciones principales

Prompting del script (cómo Claude CLI genera)

El prompt de generación del script (en el pipeline) incluye:

System context: identidad de Maestro + Chombi, tono 6/10, reglas de 03-principles.md
Curriculum context: qué lesson es, qué se vio antes, qué viene después
Source context: fuentes del día (docs, links, papers relevantes)
Format spec: tipo de audio (core / deep / caso real / etc.) y estructura específica
Output spec: formato exacto del markdown (Maestro: /Chombi: líneas, markers)
Quality checks: palabras mínimas/máximas, secciones requeridas, Q&A al final si aplica

Ejemplo reducido del prompt:

Eres el escritor de Academia Agentes, lesson formato {TYPE}.

Hoy es {DATE}. Course: {COURSE}. Lesson: {LESSON_N} — "{LESSON_TITLE}".

Tu tarea:
1. Lee {sources_dir}
2. Lee 03-principles.md
3. Lee 12-audio-formats.md sección {TYPE}
4. Escribe el script en {output_file} siguiendo EXACTAMENTE:
   - {word_count} palabras (±10%)
   - {sections_required}
   - Voces: Maestro + Chombi (o Narrador si aplica)
   - Calibración de tono {TONE_LEVEL}/10
   - Incluye [PAUSA] entre secciones

No inventes APIs ni fuentes. Cita tus sources en comments al final.

Evaluación de calidad de audio

Antes de publicar una lesson, el audio pasa por:

Listen-check automático: duración esperada, sin silencios anormales, peaks de audio OK
Transcript match: el transcript coincide con el audio (Whisper verification)
Tone spot-check: muestra aleatoria de 30 seg escuchada manualmente en primeros episodes (hasta validar calibración)
Quiz-transcript coherence: las preguntas del quiz SE PUEDEN responder escuchando el audio (no requiere leer transcript)

Open questions

¿Intro jingle? ¿Outro jingle? ¿Mismo para todos los formatos o distinto?
Durante weekly synthesis ¿música de fondo ligera? ¿o solo voces?
Cuando el learner responde Q&A: ¿voz del mismo Chombi o puede ser femenina según quien pregunta? (multi-voice evolution)
¿Cómo manejar términos en inglés (API, prompt, agent) — acento español o inglés?