コミュニケーション

Smarter 動画 OCR

9月 22, 2017

よりスマートな動画OCRの検索は何年も前に始まりました。しかし、すべてはテキストから始まりました。

現在の検索エンジンは、テキストの索引付けを科学的に行っています。現代のスパイダーは、書かれた言葉をすべて見つけて記録し、非常に効率的に結果を返してくれるので、効率化の専門家の中には、メールのファイリングシステムやウェブブラウザーのお気に入りバーをやめて、必要なものを検索に頼ることを勧める人もいます。

しかし、ほとんどの組織では、その詳細な検索機能はテキストだけに限られています。特に動画はブラックボックスのままで、タイトルやタグなどの手動で入力されたメタデータに限定されています。

動画検索は解決しなければならない問題です。

マッキンゼーと IDC の調査によると、平均的なナレッジワーカーは現在、勤務時間の 20% 近く (毎週 1 日近く) を、仕事を効果的に行うために必要な情報の検索に費やしています。動画を使ったシェアが増えれば増えるほど、動画検索のソリューションがなければ、その無駄な時間は悪化するばかりです。

そのため、今日、ますます多くの動画プラットフォームが動画検索機能を拡張しています。しかし、ソリューションの分野が拡大するにつれ、組織がナビゲートするのは難しくなっています。 なぜでしょうか？なぜなら、すべての動画検索エンジンが同じように作られているわけではないからです。

Forrester Researchは最近、 Panopto を「動画検索に対する最高のサポート」と評価しました。その理由は簡単で、次のグラフに示すように、動画検索に関して Panopto ほど深く、広く掘り下げる人はいません。

録画して保存する価値のある動画は、探す価値もあります。そのためには、それに見合うだけの動画検索機能が必要です。最新の動画プラットフォームでは、動画内のコンテンツにインデックスを付けるための独創的な方法を模索しており、メタデータ、音声入力、ビジュアルコンテンツをキャプチャする新しい方法を見つけています。

動画を使えば
動画を検索しやすくするには？

どれくらい節約できるか今すぐ計算する

では、動画検索エンジンはどのような機能を持つべきでしょうか。

基本的には、動画検索ツールが動画をインデックス化する場合、画面上で話されている、または表示されているすべての単語を検索して返すことができなければなりません。

この情報を得るための技術的な戦略はいくつかありますが、それらは自動化されたものと手動のものの2つのグループに分類される傾向があります。

ASRとOCRによる動画インデックスの自動化

自動化された動画インデックスは、1つまたは複数のインテリジェント動画テクノロジーに依存しており、動画の中で起こっていることをキャプチャして識別します。これらの自動化されたツールは、多くの場合、録画が完了した瞬間に動画に適用することができ、コンテンツのインデックス化のプロセスを迅速に行うことができます。

一般的な動画インデックス自動作成システムには、自動音声認識（ASR）、光学式文字認識（OCR）、スライドコンテンツインジェスチョンがあります。この3つのシステムは、それぞれ全く異なる機能を持っているので、もう少し詳しく見てみましょう。

自動音声認識 (ASR)は、録音物の中で話されている各単語を識別するために使用される技術です。識別された単語にはタイムスタンプが押され、検索インデックスに追加されます。ユーザーは、話された言葉を検索し、その言葉が語られた動画の正確な瞬間を見つけ、動画のそのポイントに早送りすることができます。視聴者の多くは、記憶しているアイデアやフレーズに基づいて瞬間を検索するため、ASRは動画検索エンジンの一部として非常に役立ちます。
Optical Character Recognition （OCR）は、動画内の画面に表示されたテキストを認識するための技術です。最近のプレゼンテーションでは、講演者がスライドや画面上のライブコンテンツ、さらには他の動画などを切り替えて話すことがよくあります。Googleなどの検索エンジンは、画像として保存されたテキストを認識できないため、OCRがなければ、プレゼンテーションの一部として表示されたテキストをインデックス化することができません。しかし、OCR技術は単語を識別して解読するように設計されているため、視聴者は動画のどこかで画面に表示されている文字通りの単語を検索することができます。
Slide Content Ingestion とは、動画で使用されるPowerPointやKeynoteの実際のプレゼンテーションスライドをインポートし、インデックスを付ける技術のことです。コンテンツ・インジェスチョンは、OCRとは異なり、スライドの画像を撮影して単語の識別を試みるのではなく、プログラムによってスライドから実際のテキスト文字列を抽出します。スライド・インジェスチョンは、スピーカーのメモなど、画面に表示されない追加情報も抽出するため、チームは常に、スライドに含まれるあらゆる単語に基づいて、動画の正確な場面を見つけることができます。

手動での動画インデックス作成

一方、手動による動画インデックス作成は、動画が完成した後に人間が介入することで、動画コンテンツのインデックス作成を支援するものです。

手動のインデックス作成プロセスの有用性は、追加できる情報の量によって異なります。極めて包括的なプロセスもあれば、はるかに限定的なプロセスもあります。ここでは、最も一般的な2つのマニュアル入力を見てみましょう。

Manual Metadata 動画ファイルに付加されているタイトル、作者、説明などの情報のこと。視聴者のメモやコメントもここに追加されることがあります。これらは動画検索の基本ですが、ビジネス動画は30～60分以上のものが多く、様々なトピックを扱っているため、マニュアル・メタデータだけでは十分な説明が得られないことがほとんどです。
トランスクリプト は、より包括的なアプローチで、インデックス作成のために実際の動画トランスクリプトを動画ファイルに追加するだけで行われます。トランスクリプト制作は進化し続ける分野です。多くのサービスではまだ手動でこれらのファイルを制作していますが、プロセスを自動化することも可能です。完全なトランスクリプトは、部分的なトランスクリプトよりも価値が高く、また、画面に表示されている内容に関するメモが含まれているトランスクリプトは、ダイアログを暗唱しているだけのトランスクリプトよりも価値が高いでしょう。

動画検索に適しているのは？自動インデックスと手動インデックスの違い

その選択は、お客様のニーズによって異なります。テクノロジーに依存した自動インデックス作成システムは、結果が早く、多くの場合、すべての動画に適用できますが、ASRやOCRの精度は100％ではありません。トランスクリプションのような人間による手動のアプローチは、一般的に精度が向上しますが、作成に時間がかかり、しばしば追加コストがかかります。

幸いなことに、Panoptoでは選ぶ必要がありません。

Panoptoの Smart Search動画検索技術は、業界で最も包括的な動画内検索エンジンです。Panoptoでは、インターネットや電子メールで検索するのと同じように、ビデオライブラリを検索することができます。