Mistral ha anunciado el lanzamiento de un nuevo modelo Audio AI llamado Voxtral. La compañía de IA francesa declaró que el modelo está orientado a las empresas y se considera la primera familia de modelos de idiomas grandes (LLM) centrados en la IA de audio.
Según la compañía francesa de IA, Voxtral está diseñado para ofrecer inteligencia práctica del habla en aplicaciones del mundo real. El modelo de audio AI supera a Whisper Big-V3, que es uno de los principales modelos de transcripción de audio de código abierto.
Voxtral funciona con Mistral Small 3.1
Voxtral funciona con el modelo de lenguaje grande (LLM) Mistral Small 3.1. El modelo de audio ai puede comprender múltiples idiomas, como inglés, francés, español, portugués, italiano, alemán, hindú, hindi y más.
El modelo de audio es capaz de transcribir hasta 30 minutos de audio. Además, Voxtral puede comprender hasta 40 minutos de audio, lo que facilita a los usuarios conversar y hacer preguntas relevantes. Los usuarios también pueden pedirle que genere resúmenes de texto del archivo de audio o proporcione análisis y ideas detalladas. También pueden ejecutar otras acciones, como ejecutar funciones a través de una llamada API.
Mistral ofrece los "modelos de comprensión del habla" de Voxtral en dos variaciones llamadas Voxtral Small and Voxtral Mini. Ambos modelos son capaces de interactuar con indicaciones basadas en el habla o una combinación de indicaciones de audio y texto.
El más poderoso de los dos modelos, Voxtral Small, presenta parámetros de 24B: ideal para las implementaciones a escala de producción. Mistral escribió que "Voxtral Small es competitivo con GPT-4O-Mini y Gemini 2.5 flash en todas las tareas".

Voxtral Mini es una opción de peso más ligero con parámetros 3B, lo que lo convierte en opción detronG para implementaciones locales y de borde. Su versión API, Voxtral Mini Transcribe, no solo es rentable, sino que también supera el susurro de OpenAI, a menos de la mitad del precio.
Tanto Voxtral Small (24B) como Voxtral Mini (3B) están disponibles para la descarga y el alojamiento local de Hugging Face. Los desarrolladores también pueden integrar los modelos de audio a través de una sola llamada API en cualquier aplicación. El precio comienza en $ 0.001 por minuto, lo que hace que la transcripción sea escalable. Mistral declaró que Voxtral estará disponible en LE Chat en la aplicación web o la aplicación móvil en las próximas dos semanas.
Mistral es una de las principales compañías de inteligencia artificial en Europa. Según los informes, la compañía, que se fundó en 2023, ha recaudado más de € 1 mil millones (alrededor de $ 1.2 mil millones) de empresas conocidas como Andreessen Horowitz, Nvidia, Samsung y Salesforce.
Cable de diferencia de clave : la herramienta secreta que los proyectos de cifrado utilizan para obtener cobertura de medios garantizada