Comunicaciones

OCR de vídeo más inteligente

Septiembre 22, 2017

La búsqueda de un OCR de vídeo más inteligente comenzó hace muchos años. Pero todo comenzó realmente con el texto.

Hoy en día, los motores de búsqueda han hecho una ciencia de la indexación de textos. Las arañas modernas encuentran y registran hasta la última palabra escrita, y devuelven los resultados con tanta eficacia que algunos expertos en eficiencia recomiendan que la gente abandone sus sistemas de archivo de correo electrónico y las barras de favoritos del navegador web y confíe simplemente en la búsqueda para encontrar lo que necesita.

Pero para la mayoría de las organizaciones, esa profundidad de la capacidad de búsqueda está reservada solo para el texto. El vídeo, en particular, sigue siendo una caja negra, limitada a metadatos introducidos manualmente, como títulos y etiquetas.

El OCR de vídeo es un problema que debe resolverse

Según un estudio de McKinsey e IDC, el trabajador del conocimiento promedio ahora pasa casi el 20% de su tiempo, casi un día entero, cada semana, solo buscando la información que necesita para hacer su trabajo de manera efectiva. A medida que las empresas comparten cada vez más el uso de vídeo, esa pérdida de tiempo no hará más que empeorar si no se cuenta con una solución de búsqueda de vídeo.

Por eso, hoy en día, cada vez más plataformas de vídeo están ampliando sus capacidades de búsqueda de vídeos. Sin embargo, a medida que el campo de las soluciones se amplía, se hace más difícil para las organizaciones navegar por él. ¿Por qué? Porque no todos los motores de búsqueda de vídeo son iguales.

Forrester Research elogió recientemente a Panopto por tener "el mejor soporte para la búsqueda de videos". Es fácil ver por qué: nadie va más allá o más allá que Panopto cuando se trata de búsqueda de videos, como se muestra en el siguiente gráfico.

Si vale la pena grabar y almacenar un vídeo, vale la pena encontrarlo. Quieres una capacidad de búsqueda de vídeos que esté a la altura de esa tarea. Las plataformas de vídeo modernas están encontrando formas creativas de indexar el contenido dentro de los vídeos, encontrando nuevas formas de capturar metadatos, entradas de audio y contenido visual.

¿Cuánto podría ahorrar si
¿facilitar la búsqueda de sus vídeos?

Calcula tu ahorro

Entonces, ¿qué capacidades debe tener un motor de búsqueda de vídeos?

Fundamentalmente, si una herramienta de búsqueda de vídeo va a indexar tus vídeos, debe ser capaz de encontrar y devolver todas las palabras pronunciadas y mostradas en pantalla.

Aunque existen varias estrategias técnicas para obtener esta información, suelen dividirse en dos grupos: automatizadas o manuales.

Indexación automática de vídeos mediante ASR y OCR

La indexación automatizada de vídeo se basa en una o más tecnologías de vídeo inteligentes para capturar y discernir lo que ocurre en el vídeo.Estas herramientas automatizadas a menudo pueden aplicarse a un vídeo en el mismo instante en que se completa la grabación, lo que agiliza el proceso de indexación del contenido.

Los sistemas automatizados de indexación de vídeo más habituales son el reconocimiento automático de voz (ASR), el reconocimiento óptico de caracteres (OCR) y la ingestión de contenidos de diapositivas. Estos tres sistemas hacen cosas muy diferentes, por lo que vamos a examinar cada uno de ellos con más detalle.

Reconocimiento automático del habla (ASR) es una tecnología utilizada para identificar cada palabra que se pronuncia en una grabación. Una vez identificadas, las palabras llevan un sello de tiempo y se añaden a un índice de búsqueda. Los usuarios pueden buscar palabras habladas, encontrar el momento preciso del vídeo en el que se mencionan y avanzar hasta ese punto del vídeo. Dado que muchos espectadores buscarán un momento basado en una idea o frase que recuerden, la ASR es una parte increíblemente útil de tu motor de búsqueda de vídeos.
El reconocimiento óptico de caracteres (OCR) es una tecnología utilizada para reconocer el texto que aparece en pantalla dentro de los vídeos. A menudo, en las presentaciones modernas de hoy en día, un orador cambia entre diapositivas, contenido en pantalla en directo e incluso otros vídeos. Sin el OCR, cualquier texto que se muestre como parte de esas presentaciones no puede ser indexado porque los motores de búsqueda como Google no pueden reconocer el texto que se guarda como una imagen. La tecnología OCR, sin embargo, está diseñada para identificar y descifrar esas palabras, lo que permite a tus espectadores buscar literalmente cualquier palabra que aparezca en pantalla en cualquier parte de un vídeo.
Ingestión de contenido de diapositivas se refiere a la tecnología que importa e indexa las diapositivas reales de tu presentación de PowerPoint o Keynote cuando se utilizan en tu vídeo. La ingesta de contenido se diferencia del OCR en que extrae mediante programación las cadenas de texto reales de las diapositivas, en lugar de tomar una imagen de la diapositiva e intentar identificar las palabras. La ingesta de diapositivas también extrae información adicional que no se muestra en pantalla, como las notas del orador, para que tu equipo pueda encontrar siempre momentos precisos en el vídeo basándose en cualquier palabra contenida en cualquier diapositiva.

Indexación manual de vídeos

La indexación manual de vídeos, por otro lado, se basa en la intervención humana que tiene lugar después de que se haya completado un vídeo para ayudar a indexar su contenido.

La utilidad de los procesos de indexación manual varía en función de la cantidad de información que puedan añadir. Algunos procesos son bastante completos, otros, mucho más limitados. Veamos las dos entradas manuales más comunes:

Metadatos manuales se refiere a la información añadida a un archivo de vídeo, como el título, el autor y una descripción. Aquí también se pueden añadir notas y comentarios de los espectadores. Son una parte fundamental de la búsqueda de vídeos, pero en el caso de los vídeos empresariales -que suelen durar entre 30 y 60 minutos o más y abarcan una gran variedad de temas- los metadatos manuales casi nunca proporcionan una descripción suficiente para ser útiles por sí solos.
Las transcripciones son un enfoque más completo, que se realiza simplemente añadiendo una transcripción de vídeo real a tus archivos de vídeo para su indexación. La producción de transcripciones es un campo en evolución: aunque muchos servicios siguen produciendo estos archivos manualmente, el proceso puede automatizarse. Sea como sea, la calidad de la entrada es esencial: las transcripciones completas serán más valiosas que las parciales, y las que incluyan también notas sobre el contenido mostrado en pantalla serán más valiosas que las que solo reciten el diálogo.

¿Qué es mejor para la búsqueda de vídeos: la indexación automática o manual?

La elección depende realmente de tus necesidades. Los sistemas de indexación automática que se basan en la tecnología ofrecen resultados más rápidos y a menudo pueden aplicarse a cada vídeo, pero la precisión no es del 100 % con ASR y OCR. Los enfoques manuales, basados en el ser humano, como la transcripción, suelen ofrecer una mayor precisión, pero tardan más en producirse y suelen tener un coste añadido.

Afortunadamente, con Panopto no tienes que elegir.

La tecnología de búsqueda de vídeo Smart Search de Panopto es el motor de búsqueda de vídeo interno más completo del sector. Con Panopto, puedes buscar en tu videoteca de la misma manera que lo harías en Internet o en tu correo electrónico.

Por cualquier palabra clave hablada en tus vídeos, con ASR
Por cualquier palabra que aparezca en la pantalla o en cualquier otro lugar de tu vídeo, con OCR e ingestión de contenido de diapositivas
Por metadatos tradicionales y avanzados, incluyendo etiquetas y títulos, notas del espectador y comentarios
Y opcionalmente, por transcripciones manuales completas de tus contenidos de vídeo.

Prueba tú mismo nuestro buscador de vídeos.

¿Preparado para ver lo que te has perdido en tu búsqueda de vídeos? Póngase en contacto con nuestro equipo hoy mismo para programar una demostración.