対面対話特徴検索 | 株式会社ハイパーシステム

対面対話特徴検索システム

SYSTEM

株式会社ハイパーシステムはビデオ録画から映像と音声を分析し、観察対象者の行動や、対話者間の発話を速やかに検索し再生できる対面対話特徴検索システムを開発しました。

机の両側に椅子に座った2名の対話を録画録音したビデオを映像分析と音声分析を行い、顔を映し出している被観察者の特徴動作を検出します。さらにステレオ録音（話者2名）した会話は話者単位に発話内容を検出します。話者が3名以上の場合、被観察者に一つのチャンネルを割り当てます。その他全員（観察者）の会話は残りのチャネルにミキシングします。

対面対話特徴検索システムはメタデータやタグデータを用いた付加処理を施しません。ビデオ録画映像と音声を分析し、分析結果を索引ファイルとして作成し、索引ファイルを利用する単純明快な検索システムです。単純明快な検索照会処理の結果、人手操作を可能な限り最少化します。被観察者の特徴行動や対話者ごとの発言内容をすばやく確認することが可能になります。

■　想定市場　■

対話ビデオ撮影した内容に対して、内容確認を速やかに行う場面が想定される市場です。たとえば、裁判所、検察庁、警察庁、警備会社等での活用が考えられます。

特に「裁判員制度」と「取り調べ可視化法案」で想定されます「長時間取り調べ録画ビデオ」の検索照会の迅速化を初めて実現します。

■　特徴　■

録画ビデオはカラー録画、ステレオ録音です。

映像には被観察者、音声には対話者2名の発話を左右のチャンネルにステレオ録音してあるビデオ録画を用います。ビデオ録画の媒体（MiniDVテープやVHSテープ、DVDその他）の種類は問いません。

録画ビデオの映像検索・音声検索はPCで行います。ビデオ媒体を特定しません。ビデオ（映像と音声）をPCに取り込む仕組みは一般のビデオ媒体機器で行います。特定のハードウェア機材の使用を前提としません。

映像検索と音声検索は動的に検索指示と再生指示ができます。映像と音声それぞれで気になる点を検索指示と再生指示でビデオ録画の映像と音声を同期して再生しますので、映像と音声を同時に確認することができます。

■　効果とメリット　■

対面対話特徴検索システムを使用した場合と、使用しない場合の違いについて、以下の一覧表で違いの概略を比較説明します。

比較項目	対面対話特徴検索システムを使用した場合	対面対話特徴検索システムを使用しない場合
記録時間24時間のビデオ録画内容から被観察者の動作を確認したい。	被観察者の特徴的な動作場面毎に、直接再生できます。確認作業量は、検索照会結果件数分の再生回数のみです。特徴的な動作場面の検索処理は、事前夜間処理等で行えます。	24時間の再生の映像画面を目視確認します。素早い一瞬の動きを目視で確認することは困難です。この様な場合は、スロー再生を行う必要があります。一般的ビデオプレーヤの早送り再生は2倍速程度で、12時間を要します。
記録時間24時間のビデオ録画音声を発話者ごとに発話確認したい。	被観察者が会話した内容に対し、任意の文言文字入力照会により、該当文言（含む類似）の全候補の発話場面を直接再生できます。重要な言葉に絞り込んだ音声再生確認は、入力照会した文言の数とその候補場面数の合計回数の再生確認作業量で済みます。観察者が会話した内容に対し、任意の文言文字入力照会は、被観察者同様に行えます。	録音音声は通常音声チャネルごとに話者は分かれていませんので、声の特徴から発話者を識別します。被観察者か観察者の区別は声の特長に大きな違いがあれば可能です。似ている時は、観察者の口元を映像確認する必要があります。録画時間分、耳による聞き取りです。音声早送り再生は1.5倍速で、16時間を要します。
ビデオ録画の映像特徴場面の静止画を取得したい。	映像検索処理段階で、すべての映像特徴場面の静止画はＪＰＥＧ形式ファイルとして保存しています。	ビデオ録画の再生プレーヤの映像をプリンタへ送る仕組みが必要です。
裁判員その他のエンドユーザにとっての操作性は容易ですか？	エンドユーザに対して一般的なPCのマウスとキーボード操作の知識で操作できる仕組みです。	さまざまなビデオ録画媒体（含むビデオ形式）を、エンドユーザがそれぞれの機器を操作することは知識や操作性、さらに必要な操作時間等の面から困難があります。
ビデオ録画は、長期間保存する必要があります。	世界的に使用されていますAVI形式映像とPCMリニア音声でビデオ録画を保存します。このことは、メーカに依存せず、ビデオ録画を長期間保存することが可能です。	ビデオ録画は、長期間は保存する必要があります。さまざまなビデオ録画媒体を利用するには使用機材の所有、維持が必要です。

記録時間24時間のビデオ録画内容から被観察者の動作を確認したい。

対面対話特徴検索システムを使用した場合

被観察者の特徴的な動作場面毎に、直接再生できます。確認作業量は、検索照会結果件数分の再生回数のみです。
特徴的な動作場面の検索処理は、事前夜間処理等で行えます。

対面対話特徴検索システムを使用しない場合

24時間の再生の映像画面を目視確認します。素早い一瞬の動きを目視で確認することは困難です。この様な場合は、スロー再生を行う必要があります。
一般的ビデオプレーヤの早送り再生は2倍速程度で、12時間を要します。

記録時間24時間のビデオ録画音声を発話者ごとに発話確認したい。

対面対話特徴検索システムを使用した場合

被観察者が会話した内容に対し、任意の文言文字入力照会により、該当文言（含む類似）の全候補の発話場面を直接再生できます。
重要な言葉に絞り込んだ音声再生確認は、入力照会した文言の数とその候補場面数の合計回数の再生確認作業量で済みます。
観察者が会話した内容に対し、任意の文言文字入力照会は、被観察者同様に行えます。

対面対話特徴検索システムを使用しない場合

録音音声は通常音声チャネルごとに話者は分かれていませんので、声の特徴から発話者を識別します。被観察者か観察者の区別は声の特長に大きな違いがあれば可能です。似ている時は、観察者の口元を映像確認する必要があります。
録画時間分、耳による聞き取りです。
音声早送り再生は1.5倍速で、16時間を要します。

ビデオ録画の映像特徴場面の静止画を取得したい。

対面対話特徴検索システムを使用した場合

映像検索処理段階で、すべての映像特徴場面の静止画はＪＰＥＧ形式ファイルとして保存しています。

対面対話特徴検索システムを使用しない場合

ビデオ録画の再生プレーヤの映像をプリンタへ送る仕組みが必要です。

裁判員その他のエンドユーザにとっての操作性は容易ですか？

対面対話特徴検索システムを使用した場合

エンドユーザに対して一般的なPCのマウスとキーボード操作の知識で操作できる仕組みです。

対面対話特徴検索システムを使用しない場合

さまざまなビデオ録画媒体（含むビデオ形式）を、エンドユーザがそれぞれの機器を操作することは知識や操作性、さらに必要な操作時間等の面から困難があります。

ビデオ録画は、長期間保存する必要があります。

対面対話特徴検索システムを使用した場合

世界的に使用されていますAVI形式映像とPCMリニア音声でビデオ録画を保存します。このことは、メーカに依存せず、ビデオ録画を長期間保存することが可能です。

対面対話特徴検索システムを使用しない場合

ビデオ録画は、長期間は保存する必要があります。さまざまなビデオ録画媒体を利用するには使用機材の所有、維持が必要です。

■　映像検索　■

解像度はVGA(640×480)以上です。AVI形式へ変換できるエンコーダ（市販）が処理できる録画ビデオであれば、任意のフレームレートでも映像検索処理は可能です。映像検索は、すべてのフレーム単位の動きを検索できます。任意の読み飛ばしフレーム数を指定することにより、素早く動作概略を把握できます。

録画ビデオの映像品質は、被観察者の顔色が明瞭に判別できる、ちらつきの無い明るさで十分です。顔を映している被観察者は、一般的な日本人の身体的特徴（皮膚の色）を有しているものとして検索します。特徴動作としては、手等の「ばたつく」や顔等の「下がる」、「上がる」と判定した場面を動画と音声で検索再生できます。特徴動作の判断は、録画ビデオの静止画をJPEG形式ファイルとして都度保存します。「下がる」、「上がる」、「ばたつく」と判定した場面の保存静止画（連続的保存）を以下に例示します。

「下がる」と判定した場面の保存静止画（連続的保存）を以下に例示します。

「上がる」と判定した場面の保存静止画（連続的保存）を以下に例示します。

「ばたつく」と判定した場面の保存静止画（連続的保存）を以下に例示します。

映像検索は被観察者の特徴動作パターン毎に検索照会できます。それぞれの映像検索の照会は録画ビデオの先頭からの録画順です。映像検索照会再生指示は特徴動作パターン毎に随意に指示できます。

「上がる」の照会再生中でも、他の「ばたつく」や「下がる」さらに次の「上がる」の照会再生を指示できます。最後に指示した再生指示を優先します。音声検索照会再生中でも、映像検索照会再生指示は可能であり、最後の再生指示を優先とします。映像検索照会再生中に対する音声検索照会再生においても同様に扱います。

■　音声検索　■

対話者の音声を事前登録するなどの事前設定は必要ありません。撮りためてあるビデオ映像の録音内容で十分です。　音声は、ステレオ録音として2名の音声が分かれて2チャンネルに録音されている必要があります。録音品質としては、空調等の雑音が少なく、残響の少ない音響環境が望ましいです。

録音する会話は、交互発話が望ましいです。発声の重なりは音声検索能力を低下させます。マスクをしている、不明瞭な語尾、息遣いが乱れる、その他正常でない呼吸等により耳で聞き取りにくい発話、また、短い言葉による断続的な発話も音声検索能力を低下させます。

日本語の標準語による言語モデルと音節変換のハイブリッド方式により、検索漏れを限りなく排除した音声検索を実現しています。

検索音声は、単語、分節、文の単位でも可能です。国策研究として開発されました代表的な音声検索システム2種では、「あまとー」「アマトー」のように長音として指定する必要があります。対面対話特徴検索システムでは、入力指定は特別な表記法を求めません。小学校で教わる五十音が基本です。「私は甘党」の場合、「わたしはあまとう」「ワタシハアマトウ」と指定できます、もちろん「あまとー」「アマトー」の指定もできます。

音声検索は被観察者と観察者それぞれを独立に検索できます。例えば被観察者に対する文言「おしえてくれ　たのむ」による音声検索照会は、該当する被観察者の発話候補を抽出します。照会再生指示を行うと被観察者の発話候補の場面を動画と音声で確認できます。ビデオ録画の被観察者（顔の人物）に対する音声検索指示と、観察者（背の人物）に対する音声検索指示は随意にそれぞれ指示できます。異なる文言でも検索指示できます。もちろん、同じ文言でも検索指示できます。

検索照会再生指示は、被観察者と観察者に対し個別にできます。もちろん、被観察者の照会再生中に、観察者側の照会再生も指示できます。しかし、最後の照会再生を優先します。

■　推奨PCハードスペック　■

Windowsが稼働するPCです。
OS（バージョン）はWindows 日本語版です。

解像度VGA(640×480)以上の画像分析を行います。従いまして、CPU性能（クロック数、コア数）、メモリ性能（より大きい）、HDD性能（ストライピング化、SSD化）を強化したハイスペック仕様と称されていますハードウェアを推奨します。

ビデオ映像をHDDに保存します。従いまして、撮影ビデオ時間に比例してHDD容量は増加します。今回の開発には、左右の話者を識別する掌サイズの簡易型アレーマイクロフォンと超指向性マイクロホン（ダイナミック型・コンデンサ型）を使用しています。

※本製品の音声検索技術にはAmiVoice（R)を使用しています。（音声分析から二次インデック作成段階までを使用しています。ハイパーシステムは三次インデックス作成と音声照会を独自拡張開発しています。）
※AmiVoice（R)は株式会社アドバンスト・メディアの登録商標です。

過去の実績

ZUBOSHIプラス

対面対話特徴検索

対面対話特徴検索システム

■ 想定市場 ■

■ 特徴 ■

■ 効果とメリット ■

記録時間24時間のビデオ録画内容から被観察者の動作を確認したい。

対面対話特徴検索システムを使用した場合

対面対話特徴検索システムを使用しない場合

記録時間24時間のビデオ録画音声を発話者ごとに発話確認したい。

対面対話特徴検索システムを使用した場合

対面対話特徴検索システムを使用しない場合

ビデオ録画の映像特徴場面の静止画を取得したい。

対面対話特徴検索システムを使用した場合

対面対話特徴検索システムを使用しない場合

裁判員その他のエンドユーザにとっての操作性は容易ですか？

対面対話特徴検索システムを使用した場合

対面対話特徴検索システムを使用しない場合

ビデオ録画は、長期間保存する必要があります。

対面対話特徴検索システムを使用した場合

対面対話特徴検索システムを使用しない場合

■ 映像検索 ■

「下がる」と判定した場面の保存静止画（連続的保存）を以下に例示します。

「上がる」と判定した場面の保存静止画（連続的保存）を以下に例示します。

「ばたつく」と判定した場面の保存静止画（連続的保存）を以下に例示します。

■ 音声検索 ■

■ 推奨PCハードスペック ■

■　想定市場　■

■　特徴　■

■　効果とメリット　■

■　映像検索　■

■　音声検索　■

■　推奨PCハードスペック　■