LINE公式アカウントから最新記事の情報を受け取ろう!
SecureMemoは、完全オフライン・オンプレミス環境への導入に対応したAI文字起こしソフトウェアです。世界最高水準のAIを活用し、精度96.2%と圧倒的な文字起こし品質を誇ります。
経営会議・日々の会議・商談・採用面談・インタビューなどの音声をセキュアな環境で正確にテキスト化することができます。
クラウド版の文字起こしサービスは数多く存在しますが、特に機密情報を含み「クラウドにアップロードするのはちょっと・・」という音声の文字起こしが出来る点で、官公庁・大学や、企業の研究開発部門でもSecureMemoが選ばれています。
OpenAI Whisperをベースに、日本のビジネス会議音声でファインチューニングした独自開発のAI「Shirushi」を搭載。
世界最高水準の精度96.2%(WER:単語誤り率 3.8%)の音声認識率で、他の追随を許さない高い性能を示します。
外部ネットワークから遮断された環境で、機密性の高い音声ファイルを処理、出力テキストを保存可能なため、セキュリティインシデントのリスクを最小限に抑えられます。
⾳声区間検出・話者⾳声からの特徴量抽出の2点について、個別に最適化したニューラルネットワークを適⽤しています。
サービス提供開始から、数百社の企業様にご利用いただく中で、リアルな会議音声データを収集させていただき、弊社が独自に策定したアノテーションルールに基づき訓練データ化し、OpenAI Whisperについてファインチューニングを行いました。
その結果、リアルなビジネス会議音声について、既存サービスに対してだけでなく、オリジナルWhisperに対しても格段に性能の高いAIモデル開発に成功いたしました。
この音声認識AIを「shirushi」と名付け、SecureMemoCloudに搭載しております。
通常の音声認識精度を測る方法として、読み上げ音声に対する認識率を表示されることが多いですが、shirushiでは、リアルな会議音声について音声認識精度を向上させることが最も重要であると捉え訓練を行い、リアルな会議音声の認識率についても自信を持って提供しております。
警察、官公庁、自治体、医療機関、民間企業などの幅広いお客様へのご導入実績があります。
警察・官公庁・自治体様におかれては、会議録や日々の情報収集業務において、文字起こしソフトウェアの活用ニーズがあります。
公的で機微な情報が非常に多く、オンプレミスのセキュアな環境での音声データの取り扱いが求められること、また効率的な業務推進が課題となっており、DX化の一環としても高性能な文字起こしAIの導入が重要となっています。
医療機関様では、院内で行われる会議録や医師・患者の会話を記録に残す用途での文字起こしソフトウェアの活用ニーズがありますが、患者様の情報を含み、機微な情報であるため、院内ネットワークで閉じた処理が要求されます。そのような需要にお応えできるソフトウェアとして、SecureMemoの導入実績がございます。
経営企画・IR担当様は、取締役会、株主総会、投資家向け説明会・カンファレンスといった会議について、対外的な情報提供のために議事録を作成、取りまとめる必要があります。一方で、機微な内容であることからクラウド環境を容易に利用することができない類のものでもあります。
声紋登録が必要な話者識別機能は、様々な人が参加する会議では事実上使うことができません。
Nishikaでは、事前の声紋登録が不要な完全自動の話者識別AIを独自開発。
⾳声区間検出・話者⾳声からの特徴量抽出の2点について、個別に最適化したニューラルネットワークを適⽤しています。
日本語だけでなく、英語、中国語、タイ語などを含む約100言語の音声文字起こしが可能です。
100言語の音声について、その言語での出力だけでなく、指定した言語での出力が可能。つまり、英語や日本語(β機能)への翻訳も可能です。
外国語の音声に対して、英語モードを指定することで高い精度で英語訳での出力が可能。何語か分からない音声でも、100言語の中に含まれていれば翻訳可能です。
外国語の音声に対して、日本語モードを指定することで簡単な日本語訳での出力が可能。何語か分からない音声でも、100言語の中に含まれていれば翻訳可能です。
精度の高い文字起こし・話者特定AIのみならず、会議録作成支援ツールとして便利な諸機能を備えています。
mp3, m4a, wav, wma, mp4, avi, mov, wmvなどの音声/動画ファイルをアップロードします。同時に複数のファイルをアップロードし、次々文字起こしにかけることが可能。文字起こし中は、進捗状況が確認できます。
文字起こし結果・話者特定結果は、発話別の再生・ループ再生といった機能を使い、「聞きながら修正」が可能。
文字起こしが完了すると、csv, docx, srt, vttなど種々のファイル形式で結果をエクスポートすることができます。
いずれの形態もオンプレミス版となり、クラウドへのデータアップロードはありません。
・個別の端末にアプリケーションをインストールする形式です
・環境があれば、翌日からでも利用開始いただける手軽さが強み
・まずはSecureMemoを少数導入し、これまでにない業務効率化の効果を体験したい、というお客様におすすめです
・AIによる処理はサーバー側で実施し、その結果をクライアント端末にお返しする形式です
・複数端末から利用することができ、利用端末を制限しない柔軟さが強み
・組織的にSecureMemoを利用し、大きな業務効率化の効果をあげたい、というお客様におすすめです
その他のご質問についてはお気軽にお問合せください。
最も高い性能を示すSecureMemo Premiumモデルは、弊社検証の結果、単語誤り率(WER)は3.8%となります。体感では、人間が注意深く文字起こしした際の精度とほぼ同一水準の精度を示します。
全ての処理を完全にオフラインな環境で実行可能な設計となっており、セキュアな環境でのご利用に向いています。
クラウドでの利用については、別サービスであるSecureMemoCloudにて対応可能です。フリープランをご準備しておりますのでお気軽にお試しください。
変換速度はSecureMemoを実行される環境に依存しますが、GPU利用の場合、1時間ほどの会議の音声が4-5分で完了します。CPU利用の場合、高速化オプションを利用した場合、35-45分程度で完了します。文字起こしすべき音声が多い場合、GPUの導入を推奨いたします。
まずは、どの程度使えるのか?精度を見ていただくために無料でお試しいただけます。(無料デモはクラウド版となります)
デモ希望の方や、製品について詳しく知りたい方はぜひお問い合わせください。