12 · Audio Formats
12 — Audio Formats
Sección titulada «12 — Audio Formats»Versión: 0.1 Última actualización: 2026-04-23 Status: 🟡 Draft
Specs de producción por tipo de audio. Coordinar con 11-audio-menu.md (qué audios hay) — este doc cubre cómo suena cada uno.
Voces — el cast fijo
Sección titulada «Voces — el cast fijo»El Maestro
Sección titulada «El Maestro»- Rol: Senior engineer con años de AI en producción. Calma, precisión, experiencia pragmática.
- Voz Gemini TTS:
Enceladus(masculina cálida, tono grave medio) — alternativa:Algenib - Pace: moderado, pausas intencionales
- Vocabulario: técnico pero no pretencioso; usa analogías cuando aterrizan
- Cuándo toma el lead: explicaciones conceptuales, frameworks, decisiones de arquitectura
- Rol: Alter ego del learner. Curioso, auto-referencial, hace las preguntas reales del audience.
- Voz Gemini TTS:
Zubenelgenubi(la misma voz que Guerra de Tokens — continuidad de marca personal) - Pace: ligeramente más rápido, natural, con reacciones
- Vocabulario: casual mexicano pero sin slang fuerte (lo fuerte queda en GdT)
- Cuándo toma el lead: preguntas, interrupciones cuando algo no cuaja, celebraciones cuando conecta
Narrador (solo para formatos específicos)
Sección titulada «Narrador (solo para formatos específicos)»- Rol: voz neutral para formato documental / monólogo
- Voz Gemini TTS:
Schedar(neutral, clara) o reutilizamos a Maestro - Pace: variable según ritmo del relato
- Cuándo: Caso Real (semi-documental), Changelog Express (monólogo seco)
Calibración de tono (escala 0-10)
Sección titulada «Calibración de tono (escala 0-10)»| Formato | Tono | Qué significa |
|---|---|---|
| Core lesson | 6 | Dos colegas en coffee shop, humor sutil, foco en aprendizaje |
| Deep Dive | 6 | Mismo tono core, más denso |
| Caso Real | 5 | Documental light — más narrativo, menos conversacional |
| Q&A del día | 7 | Más casual, se permite tangentes breves |
| Changelog Express | 4 | Seco, denso, “boletín” |
| Weekly Synthesis | 7 | Más relajado, se permite anécdotas y opiniones |
Contexto escala: 2=cátedra universitaria, 4=Huberman, 6=Latent Space, 9=Guerra de Tokens, 10=stand-up.
Formato detallado por tipo
Sección titulada «Formato detallado por tipo»Core lesson (15 min)
Sección titulada «Core lesson (15 min)»Format: Dialog 2 voces — Maestro (lead) + Chombi (proxy learner)
Ratio: ~65% Maestro / ~35% Chombi (Maestro explica más)
Estructura de diálogo:
Maestro: [abre el concepto con claridad]Chombi: [reacciona, aterriza al learner]Maestro: [ejemplo concreto]Chombi: [pregunta específica que profundiza o clarifica]Maestro: [responde + conecta con aplicación]Chombi: [meta-comentario o conexión a algo real]... loop ...Recurring segments (en cada lesson):
- “Lo que no sabías” — revelation moment, el hidden feature del día
- “La línea que importa” — 1 línea de código/config que resume la lesson
- “El anti-pattern” — qué NO hacer (aprende de error ajeno)
Reglas de escritura:
- Párrafos de 2-4 oraciones (no monólogos largos del Maestro)
- Interrupciones naturales de Chombi cada 30-45 segundos
- Cero referencias a “escuchas”, “audiencia”, “amigos” — es una conversación, no presentación
- Cero jerga corporativa
- Español México, naturalidad sobre slang
Deep Dive (25 min)
Sección titulada «Deep Dive (25 min)»Format: Dialog 2 voces — mismo Maestro + Chombi
Ratio: ~60% Maestro / ~40% Chombi (Chombi interrumpe más, pide más aclaraciones)
Estructura:
- 0-3 min: context — “ya vimos X en el core, ahora profundizamos Y”
- 3-18 min: exploración de edge cases, alternativas, contextos reales
- 18-22 min: consolidación + qué se lleva el learner
- 22-25 min: conexión a capstone / a próxima lesson
Diferencia clave vs core:
- Core introduce concept → Deep Dive lo presuriza
- Core usa 1-2 ejemplos → Deep Dive usa 4-6
- Core omite controversias → Deep Dive las aborda
Reglas de escritura:
- Se permiten referencias cruzadas a lessons pasadas
- Se permite introducir términos “pro” (con explicación)
- Chombi puede “no entender” algo y pedir explicación — el learner también
Caso Real (10 min)
Sección titulada «Caso Real (10 min)»Format: Narrativa semi-documental
Estructura:
Narrador: [setup de la historia]Narrador: [protagonista/empresa, qué intentaban]Narrador: [el problema con detalles verificables]Narrador: [cómo usaron el concepto de la lesson]Maestro (breve): [reacción técnica clave]Narrador: [resultado / métricas]Chombi (breve): [conexión a nuestro contexto]Narrador: [cierre + lección]Ratio: ~75% narrador / ~12% Maestro / ~13% Chombi
Reglas:
- Historia real con fuentes verificables citadas en transcript
- Tono narrativo, no dialog completo
- Ejemplos OK: Cursor Composer, Devin, Stripe AI, Anthropic customer stories
- NO inventar detalles — si no tenemos el dato, lo omitimos
Q&A del día (10-15 min)
Sección titulada «Q&A del día (10-15 min)»Format: Dialog casual 2 voces — Maestro + Chombi
Ratio: ~50/50 — conversación balanceada
Estructura:
- 0-1 min: intro, qué preguntas cubrimos
- 1-12 min: 2-3 preguntas, ~4 min cada una
- 12-15 min: preguntas frecuentes rápidas (rapid-fire 30 seg cada una)
Reglas:
- Preguntas anónimas de learners reales
- Respuestas con concreción — cita lesson, cita fuente
- Se permite admitir “no lo sé, lo investigo” cuando aplique
- Tono más ligero — es sobremesa técnica, no clase
Changelog Express (5 min)
Sección titulada «Changelog Express (5 min)»Format: Monólogo seco — Narrador (o Maestro solo)
Estructura:
Narrador: "Del <fecha>: <X cosa pasó>."Narrador: "<Contexto mínimo — 2 oraciones>."Narrador: "<Impacto en nuestro curriculum: conecta con lesson Y>."Narrador: "<Next>."Reglas:
- Zero fluff
- Zero opinión fuerte — reporte factual
- Links en transcript SIEMPRE
- Si el release no conecta con ninguna lesson actual, se omite del changelog (no cobertura por cobertura)
Weekly Synthesis (45 min)
Sección titulada «Weekly Synthesis (45 min)»Format: Dialog 2 voces — tono 7/10 (más relajado)
Ratio: ~55% Maestro / ~45% Chombi
Estructura:
- 0-5 min: recap cariñoso de la semana (“esta semana vimos X, Y, Z”)
- 5-20 min: pattern emergente — qué tema cruzó lessons, qué no aterrizó
- 20-30 min: discusión abierta — opinión del Maestro, reacción del Chombi
- 30-40 min: Q&A largo — 2-3 preguntas profundas
- 40-45 min: preview de semana siguiente + reto de weekend para el learner
Reglas:
- Más libertad narrativa — pueden divagar, volver, conectar
- Anécdotas personales de producción OK
- Humor: sutil pero permitido (timing, no slang)
- Weekend vibe, no pressure
Specs técnicos TTS
Sección titulada «Specs técnicos TTS»- Primary:
gemini-2.5-pro-preview-tts(multi-speaker) - Fallback:
gemini-2.5-flash-ttssi Pro rate-limited (~10× más barato, calidad suficiente para ambient)
Formato archivo
Sección titulada «Formato archivo»- Container: MP3
- Bitrate: 128 kbps (stereo balance between size and quality)
- Sample rate: 44.1 kHz
- Channels: mono (voces solas) / stereo (cuando hay música o sting)
Section markers (en script source)
Sección titulada «Section markers (en script source)»[PAUSA] — silencio de 1-2 segundos (entre secciones)[STING] — el audio-logo de la academia (1-2 segundos)[MAESTRO: confident] — tag de entrega opcional[CHOMBI: reflective] — tag de entrega opcionalMarkers se quitan antes del TTS pero dan pistas al generador y al writer.
Estructura multi-section
Sección titulada «Estructura multi-section»Para lessons largas, el script se divide en secciones de máximo 6000 caracteres (límite práctico del TTS API). Cada sección se genera independiente y se concatena al final con stings entre secciones.
Post-processing
Sección titulada «Post-processing»- Normalize: loudness a -16 LUFS (broadcast standard podcast)
- Intro: logo sonoro de Academia Agentes (3 seg) al inicio
- Outro: transición suave + call to action (“haz tu exercise en la app”)
- Transitions: sting entre secciones principales
Prompting del script (cómo Claude CLI genera)
Sección titulada «Prompting del script (cómo Claude CLI genera)»El prompt de generación del script (en el pipeline) incluye:
- System context: identidad de Maestro + Chombi, tono 6/10, reglas de
03-principles.md - Curriculum context: qué lesson es, qué se vio antes, qué viene después
- Source context: fuentes del día (docs, links, papers relevantes)
- Format spec: tipo de audio (core / deep / caso real / etc.) y estructura específica
- Output spec: formato exacto del markdown (Maestro: /Chombi: líneas, markers)
- Quality checks: palabras mínimas/máximas, secciones requeridas, Q&A al final si aplica
Ejemplo reducido del prompt:
Eres el escritor de Academia Agentes, lesson formato {TYPE}.
Hoy es {DATE}. Course: {COURSE}. Lesson: {LESSON_N} — "{LESSON_TITLE}".
Tu tarea:1. Lee {sources_dir}2. Lee 03-principles.md3. Lee 12-audio-formats.md sección {TYPE}4. Escribe el script en {output_file} siguiendo EXACTAMENTE: - {word_count} palabras (±10%) - {sections_required} - Voces: Maestro + Chombi (o Narrador si aplica) - Calibración de tono {TONE_LEVEL}/10 - Incluye [PAUSA] entre secciones
No inventes APIs ni fuentes. Cita tus sources en comments al final.Evaluación de calidad de audio
Sección titulada «Evaluación de calidad de audio»Antes de publicar una lesson, el audio pasa por:
- Listen-check automático: duración esperada, sin silencios anormales, peaks de audio OK
- Transcript match: el transcript coincide con el audio (Whisper verification)
- Tone spot-check: muestra aleatoria de 30 seg escuchada manualmente en primeros episodes (hasta validar calibración)
- Quiz-transcript coherence: las preguntas del quiz SE PUEDEN responder escuchando el audio (no requiere leer transcript)
Open questions
Sección titulada «Open questions»- ¿Intro jingle? ¿Outro jingle? ¿Mismo para todos los formatos o distinto?
- Durante weekly synthesis ¿música de fondo ligera? ¿o solo voces?
- Cuando el learner responde Q&A: ¿voz del mismo Chombi o puede ser femenina según quien pregunta? (multi-voice evolution)
- ¿Cómo manejar términos en inglés (API, prompt, agent) — acento español o inglés?