"Diarización" es la palabra técnica para algo que hace tu cerebro sin pensar: distinguir voces en una conversación. Para una máquina es uno de los problemas más difíciles del audio.
Por qué es difícil
- Voces parecidas (hermanos, mismo género, mismo acento).
- Solapamientos: la gente habla encima.
- Cambios de canal: alguien deja el ordenador y vuelve.
- Ruido: aire acondicionado, otro idioma de fondo.
La transcripción puede tener 99% de precisión y aun así, si los speakers están mal asignados, la nota es inservible.
Cómo lo abordamos
Embedding por segmento. Dividimos el audio en chunks de 1-3 segundos, pasamos cada chunk por un modelo de speaker embedding (entrenado en español + inglés + portugués). Cada chunk produce un vector de ~512 dims.
Clustering progresivo. Agrupamos vectores en clusters. El número de clusters no se fija a priori — se infiere por densidad. Esto permite que una reunión con 2 personas no genere 5 speakers ficticios y una con 8 sí los detecte.
Refinamiento con prosodia. Usamos ritmo, pausas y entonación como señales secundarias para mejorar la frontera entre speakers cuando los embeddings dudan.
Re-identificación opcional. Si el usuario etiqueta a un speaker ("este es Juan"), el embedding queda guardado cifrado en su cuenta. En reuniones futuras, Juan se identifica automáticamente.
Lo que NO hacemos
No subimos tu voz a un repositorio público. Los embeddings son solo tuyos y se borran si pides borrarlos. La identificación entre cuentas no existe.
Resultados
En benchmarks internos con audio de Zoom típico:
- Speaker error rate: 4.7% en español, 5.1% en inglés.
- Cuando hay >5 speakers, sube a ~9%.
- Solapamientos detectados con 87% de precisión.
Comparado con servicios genéricos (que dan 12-18% de error en español), la mejora es notable. La razón es simple: optimizamos para el caso real — reuniones de equipo y entrevistas — no para podcasts profesionales.
¿Listo para probarlo?
Graba tu próxima reunión y obtén un resumen accionable en segundos.
Empieza gratis