Ir al contenido

12 · Audio Formats

Versión: 0.1 Última actualización: 2026-04-23 Status: 🟡 Draft

Specs de producción por tipo de audio. Coordinar con 11-audio-menu.md (qué audios hay) — este doc cubre cómo suena cada uno.


  • Rol: Senior engineer con años de AI en producción. Calma, precisión, experiencia pragmática.
  • Voz Gemini TTS: Enceladus (masculina cálida, tono grave medio) — alternativa: Algenib
  • Pace: moderado, pausas intencionales
  • Vocabulario: técnico pero no pretencioso; usa analogías cuando aterrizan
  • Cuándo toma el lead: explicaciones conceptuales, frameworks, decisiones de arquitectura
  • Rol: Alter ego del learner. Curioso, auto-referencial, hace las preguntas reales del audience.
  • Voz Gemini TTS: Zubenelgenubi (la misma voz que Guerra de Tokens — continuidad de marca personal)
  • Pace: ligeramente más rápido, natural, con reacciones
  • Vocabulario: casual mexicano pero sin slang fuerte (lo fuerte queda en GdT)
  • Cuándo toma el lead: preguntas, interrupciones cuando algo no cuaja, celebraciones cuando conecta
  • Rol: voz neutral para formato documental / monólogo
  • Voz Gemini TTS: Schedar (neutral, clara) o reutilizamos a Maestro
  • Pace: variable según ritmo del relato
  • Cuándo: Caso Real (semi-documental), Changelog Express (monólogo seco)

FormatoTonoQué significa
Core lesson6Dos colegas en coffee shop, humor sutil, foco en aprendizaje
Deep Dive6Mismo tono core, más denso
Caso Real5Documental light — más narrativo, menos conversacional
Q&A del día7Más casual, se permite tangentes breves
Changelog Express4Seco, denso, “boletín”
Weekly Synthesis7Más relajado, se permite anécdotas y opiniones

Contexto escala: 2=cátedra universitaria, 4=Huberman, 6=Latent Space, 9=Guerra de Tokens, 10=stand-up.


Format: Dialog 2 voces — Maestro (lead) + Chombi (proxy learner)

Ratio: ~65% Maestro / ~35% Chombi (Maestro explica más)

Estructura de diálogo:

Maestro: [abre el concepto con claridad]
Chombi: [reacciona, aterriza al learner]
Maestro: [ejemplo concreto]
Chombi: [pregunta específica que profundiza o clarifica]
Maestro: [responde + conecta con aplicación]
Chombi: [meta-comentario o conexión a algo real]
... loop ...

Recurring segments (en cada lesson):

  • “Lo que no sabías” — revelation moment, el hidden feature del día
  • “La línea que importa” — 1 línea de código/config que resume la lesson
  • “El anti-pattern” — qué NO hacer (aprende de error ajeno)

Reglas de escritura:

  • Párrafos de 2-4 oraciones (no monólogos largos del Maestro)
  • Interrupciones naturales de Chombi cada 30-45 segundos
  • Cero referencias a “escuchas”, “audiencia”, “amigos” — es una conversación, no presentación
  • Cero jerga corporativa
  • Español México, naturalidad sobre slang

Format: Dialog 2 voces — mismo Maestro + Chombi

Ratio: ~60% Maestro / ~40% Chombi (Chombi interrumpe más, pide más aclaraciones)

Estructura:

  • 0-3 min: context — “ya vimos X en el core, ahora profundizamos Y”
  • 3-18 min: exploración de edge cases, alternativas, contextos reales
  • 18-22 min: consolidación + qué se lleva el learner
  • 22-25 min: conexión a capstone / a próxima lesson

Diferencia clave vs core:

  • Core introduce concept → Deep Dive lo presuriza
  • Core usa 1-2 ejemplos → Deep Dive usa 4-6
  • Core omite controversias → Deep Dive las aborda

Reglas de escritura:

  • Se permiten referencias cruzadas a lessons pasadas
  • Se permite introducir términos “pro” (con explicación)
  • Chombi puede “no entender” algo y pedir explicación — el learner también

Format: Narrativa semi-documental

Estructura:

Narrador: [setup de la historia]
Narrador: [protagonista/empresa, qué intentaban]
Narrador: [el problema con detalles verificables]
Narrador: [cómo usaron el concepto de la lesson]
Maestro (breve): [reacción técnica clave]
Narrador: [resultado / métricas]
Chombi (breve): [conexión a nuestro contexto]
Narrador: [cierre + lección]

Ratio: ~75% narrador / ~12% Maestro / ~13% Chombi

Reglas:

  • Historia real con fuentes verificables citadas en transcript
  • Tono narrativo, no dialog completo
  • Ejemplos OK: Cursor Composer, Devin, Stripe AI, Anthropic customer stories
  • NO inventar detalles — si no tenemos el dato, lo omitimos

Format: Dialog casual 2 voces — Maestro + Chombi

Ratio: ~50/50 — conversación balanceada

Estructura:

  • 0-1 min: intro, qué preguntas cubrimos
  • 1-12 min: 2-3 preguntas, ~4 min cada una
  • 12-15 min: preguntas frecuentes rápidas (rapid-fire 30 seg cada una)

Reglas:

  • Preguntas anónimas de learners reales
  • Respuestas con concreción — cita lesson, cita fuente
  • Se permite admitir “no lo sé, lo investigo” cuando aplique
  • Tono más ligero — es sobremesa técnica, no clase

Format: Monólogo seco — Narrador (o Maestro solo)

Estructura:

Narrador: "Del <fecha>: <X cosa pasó>."
Narrador: "<Contexto mínimo — 2 oraciones>."
Narrador: "<Impacto en nuestro curriculum: conecta con lesson Y>."
Narrador: "<Next>."

Reglas:

  • Zero fluff
  • Zero opinión fuerte — reporte factual
  • Links en transcript SIEMPRE
  • Si el release no conecta con ninguna lesson actual, se omite del changelog (no cobertura por cobertura)

Format: Dialog 2 voces — tono 7/10 (más relajado)

Ratio: ~55% Maestro / ~45% Chombi

Estructura:

  • 0-5 min: recap cariñoso de la semana (“esta semana vimos X, Y, Z”)
  • 5-20 min: pattern emergente — qué tema cruzó lessons, qué no aterrizó
  • 20-30 min: discusión abierta — opinión del Maestro, reacción del Chombi
  • 30-40 min: Q&A largo — 2-3 preguntas profundas
  • 40-45 min: preview de semana siguiente + reto de weekend para el learner

Reglas:

  • Más libertad narrativa — pueden divagar, volver, conectar
  • Anécdotas personales de producción OK
  • Humor: sutil pero permitido (timing, no slang)
  • Weekend vibe, no pressure

  • Primary: gemini-2.5-pro-preview-tts (multi-speaker)
  • Fallback: gemini-2.5-flash-tts si Pro rate-limited (~10× más barato, calidad suficiente para ambient)
  • Container: MP3
  • Bitrate: 128 kbps (stereo balance between size and quality)
  • Sample rate: 44.1 kHz
  • Channels: mono (voces solas) / stereo (cuando hay música o sting)
[PAUSA] — silencio de 1-2 segundos (entre secciones)
[STING] — el audio-logo de la academia (1-2 segundos)
[MAESTRO: confident] — tag de entrega opcional
[CHOMBI: reflective] — tag de entrega opcional

Markers se quitan antes del TTS pero dan pistas al generador y al writer.

Para lessons largas, el script se divide en secciones de máximo 6000 caracteres (límite práctico del TTS API). Cada sección se genera independiente y se concatena al final con stings entre secciones.

  • Normalize: loudness a -16 LUFS (broadcast standard podcast)
  • Intro: logo sonoro de Academia Agentes (3 seg) al inicio
  • Outro: transición suave + call to action (“haz tu exercise en la app”)
  • Transitions: sting entre secciones principales

Prompting del script (cómo Claude CLI genera)

Sección titulada «Prompting del script (cómo Claude CLI genera)»

El prompt de generación del script (en el pipeline) incluye:

  1. System context: identidad de Maestro + Chombi, tono 6/10, reglas de 03-principles.md
  2. Curriculum context: qué lesson es, qué se vio antes, qué viene después
  3. Source context: fuentes del día (docs, links, papers relevantes)
  4. Format spec: tipo de audio (core / deep / caso real / etc.) y estructura específica
  5. Output spec: formato exacto del markdown (Maestro: /Chombi: líneas, markers)
  6. Quality checks: palabras mínimas/máximas, secciones requeridas, Q&A al final si aplica

Ejemplo reducido del prompt:

Eres el escritor de Academia Agentes, lesson formato {TYPE}.
Hoy es {DATE}. Course: {COURSE}. Lesson: {LESSON_N} — "{LESSON_TITLE}".
Tu tarea:
1. Lee {sources_dir}
2. Lee 03-principles.md
3. Lee 12-audio-formats.md sección {TYPE}
4. Escribe el script en {output_file} siguiendo EXACTAMENTE:
- {word_count} palabras (±10%)
- {sections_required}
- Voces: Maestro + Chombi (o Narrador si aplica)
- Calibración de tono {TONE_LEVEL}/10
- Incluye [PAUSA] entre secciones
No inventes APIs ni fuentes. Cita tus sources en comments al final.

Antes de publicar una lesson, el audio pasa por:

  1. Listen-check automático: duración esperada, sin silencios anormales, peaks de audio OK
  2. Transcript match: el transcript coincide con el audio (Whisper verification)
  3. Tone spot-check: muestra aleatoria de 30 seg escuchada manualmente en primeros episodes (hasta validar calibración)
  4. Quiz-transcript coherence: las preguntas del quiz SE PUEDEN responder escuchando el audio (no requiere leer transcript)

  • ¿Intro jingle? ¿Outro jingle? ¿Mismo para todos los formatos o distinto?
  • Durante weekly synthesis ¿música de fondo ligera? ¿o solo voces?
  • Cuando el learner responde Q&A: ¿voz del mismo Chombi o puede ser femenina según quien pregunta? (multi-voice evolution)
  • ¿Cómo manejar términos en inglés (API, prompt, agent) — acento español o inglés?