高精度 音声文字起こしツール SecureMemo|オフラインで機密情報の音声文字起こしに最適

2024.07.22 資料提供元 Nishika株式会社

サービス概要

世界最高水準の精度96.2%AI搭載

SecureMemoは、完全オフライン・オンプレミス環境への導入に対応したAI文字起こしソフトウェアです。世界最高水準のAIを活用し、精度96.2%と圧倒的な文字起こし品質を誇ります。

オフラインでセキュアな音声文字起こし

経営会議・日々の会議・商談・採用面談・インタビューなどの音声をセキュアな環境で正確にテキスト化することができます。

クラウド版の文字起こしサービスは数多く存在しますが、特に機密情報を含み「クラウドにアップロードするのはちょっと・・」という音声の文字起こしが出来る点で、官公庁・大学や、企業の研究開発部門でもSecureMemoが選ばれています。

技術の特徴

高精度な文字起こし性能 -英語音声はもちろん、日本語音声への相性抜群

OpenAI Whisperをベースに、日本のビジネス会議音声でファインチューニングした独自開発のAI「Shirushi」を搭載。

世界最高水準の精度96.2%(WER:単語誤り率 3.8%)の音声認識率で、他の追随を許さない高い性能を示します。

オフラインでセキュア

外部ネットワークから遮断された環境で、機密性の高い音声ファイルを処理、出力テキストを保存可能なため、セキュリティインシデントのリスクを最小限に抑えられます。

声紋登録不要の話者特定

⾳声区間検出・話者⾳声からの特徴量抽出の2点について、個別に最適化したニューラルネットワークを適⽤しています。

 

独自開発の音声認識AI「shirushi」について

リアルな会議音声の認識精度を向上

サービス提供開始から、数百社の企業様にご利用いただく中で、リアルな会議音声データを収集させていただき、弊社が独自に策定したアノテーションルールに基づき訓練データ化し、OpenAI Whisperについてファインチューニングを行いました。

その結果、リアルなビジネス会議音声について、既存サービスに対してだけでなく、オリジナルWhisperに対しても格段に性能の高いAIモデル開発に成功いたしました。

この音声認識AIを「shirushi」と名付け、SecureMemoCloudに搭載しております。

通常の音声認識精度を測る方法として、読み上げ音声に対する認識率を表示されることが多いですが、shirushiでは、リアルな会議音声について音声認識精度を向上させることが最も重要であると捉え訓練を行い、リアルな会議音声の認識率についても自信を持って提供しております。

 

読み上げ音声に対する精度のベンチマーク

↑元の音声はこちらから聴取可

 

実際の会議音声に対する精度のベンチマーク

↑元の音声はこちらから聴取可

ユースケース/導入実績

警察、官公庁、自治体、医療機関、民間企業などの幅広いお客様へのご導入実績があります。

警察・官公庁・自治体:公的で機微な情報を含む会議録文字起こし

警察・官公庁・自治体様におかれては、会議録や日々の情報収集業務において、文字起こしソフトウェアの活用ニーズがあります。

公的で機微な情報が非常に多く、オンプレミスのセキュアな環境での音声データの取り扱いが求められること、また効率的な業務推進が課題となっており、DX化の一環としても高性能な文字起こしAIの導入が重要となっています。

医療機関:委員会・部会の会議録、医師・患者の会話文字起こし

医療機関様では、院内で行われる会議録や医師・患者の会話を記録に残す用途での文字起こしソフトウェアの活用ニーズがありますが、患者様の情報を含み、機微な情報であるため、院内ネットワークで閉じた処理が要求されます。そのような需要にお応えできるソフトウェアとして、SecureMemoの導入実績がございます。

経営企画・IR:投資家向け説明会などの会議録文字起こし

経営企画・IR担当様は、取締役会、株主総会、投資家向け説明会・カンファレンスといった会議について、対外的な情報提供のために議事録を作成、取りまとめる必要があります。一方で、機微な内容であることからクラウド環境を容易に利用することができない類のものでもあります。

 

声紋登録不要の完全自動話者特定

声紋登録が必要な話者識別機能は、様々な人が参加する会議では事実上使うことができません。

Nishikaでは、事前の声紋登録が不要な完全自動の話者識別AIを独自開発。

⾳声区間検出・話者⾳声からの特徴量抽出の2点について、個別に最適化したニューラルネットワークを適⽤しています。

約100言語の音声の文字起こしに対応

日本語だけでなく、英語、中国語、タイ語などを含む約100言語の音声文字起こしが可能です。

対応言語例

約100言語の音声について、英語や日本語への翻訳も可能

100言語の音声について、その言語での出力だけでなく、指定した言語での出力が可能。つまり、英語や日本語(β機能)への翻訳も可能です。

高精度な英語訳

外国語の音声に対して、英語モードを指定することで高い精度で英語訳での出力が可能。何語か分からない音声でも、100言語の中に含まれていれば翻訳可能です。

簡易な日本語訳(β機能)

外国語の音声に対して、日本語モードを指定することで簡単な日本語訳での出力が可能。何語か分からない音声でも、100言語の中に含まれていれば翻訳可能です。

 

SecureMemoの利用方法・機能

精度の高い文字起こし・話者特定AIのみならず、会議録作成支援ツールとして便利な諸機能を備えています。

音声/動画ファイルをアップロード

mp3, m4a, wav, wma, mp4, avi, mov, wmvなどの音声/動画ファイルをアップロードします。同時に複数のファイルをアップロードし、次々文字起こしにかけることが可能。文字起こし中は、進捗状況が確認できます。

文字起こし結果・話者特定結果を「聞きながら」修正

文字起こし結果・話者特定結果は、発話別の再生・ループ再生といった機能を使い、「聞きながら修正」が可能。

文字起こしデータのエクスポート

文字起こしが完了すると、csv, docx, srt, vttなど種々のファイル形式で結果をエクスポートすることができます。

 

紹介動画

 

提供形態

いずれの形態もオンプレミス版となり、クラウドへのデータアップロードはありません。

カンタンに導入可能なスタンドアロン型

個別の端末にアプリケーションをインストールする形式です
・環境があれば、翌日からでも利用開始いただける手軽さが強み
・まずはSecureMemoを少数導入し、これまでにない業務効率化の効果を体験したい、というお客様におすすめです

全社的な利用に最適なクライアントサーバー型

・AIによる処理はサーバー側で実施し、その結果をクライアント端末にお返しする形式です
・複数端末から利用することができ、利用端末を制限しない柔軟さが強み
・組織的にSecureMemoを利用し、大きな業務効率化の効果をあげたい、というお客様におすすめです

推奨動作環境

スタンドアロン型

クライアントサーバー型

 

よくある質問

その他のご質問についてはお気軽にお問合せください。

文字起こしの精度はどのくらいですか?

最も高い性能を示すSecureMemo Premiumモデルは、弊社検証の結果、単語誤り率(WER)は3.8%となります。体感では、人間が注意深く文字起こしした際の精度とほぼ同一水準の精度を示します。

 

セキュリティが求められる用途で使いたいが、大丈夫?

全ての処理を完全にオフラインな環境で実行可能な設計となっており、セキュアな環境でのご利用に向いています。

 

クラウドでの利用も可能?

クラウドでの利用については、別サービスであるSecureMemoCloudにて対応可能です。フリープランをご準備しておりますのでお気軽にお試しください。

 

文字起こしの速度ですが、どのくらいの時間で完了しますか?

変換速度はSecureMemoを実行される環境に依存しますが、GPU利用の場合、1時間ほどの会議の音声が4-5分で完了します。CPU利用の場合、高速化オプションを利用した場合、35-45分程度で完了します。文字起こしすべき音声が多い場合、GPUの導入を推奨いたします。

 

クラウド版で精度を見る|無料デモも可能です。詳細はお問い合わせください。

まずは、どの程度使えるのか?精度を見ていただくために無料でお試しいただけます。(無料デモはクラウド版となります)

デモ希望の方や、製品について詳しく知りたい方はぜひお問い合わせください。

私たちの事業は、AIプロダクト事業、AIコンサルティング・開発事業、そしてAI人材事業の3つの柱から成ります。 全ての事業がクライアントのデジタルトランスフォーメーションを実現するためのもので、異なる側面からクライアントに革新的かつ実用的な価値を提供することで、デジタルの力を最大限に活用したビジネスの進化を支援します。