【クラウド版】高精度音声文字起こしツール SecureMemoCloud|世界最高水準の精度96.2%

2024.08.06 資料提供元 Nishika株式会社

オンプレミス版の「SecureMemo」はこちら

サービス概要

世界最高水準の精度を誇る音声認識で正確に文字起こし

ChatGPTで著名なOpenAI社提供のWhisperというAI音声認識モデルを、リアルな会議録の文字起こしを目的に独自にチューニングして活用しており、日本語の音声認識率96.2%で文字起こしが可能です。ノイズが混ざっていたり、さほど明瞭でない音声でも高い認識精度を誇る点が強みです。文字起こしした後の手直しが少なく、作業負担が軽減できます。

60分の音声を4分で文字起こし

AIの動作に特化した音声認識環境を独自に構築しており、60分の音声ファイルを最短4分で文字起こしすることができます。 会議が終わって自席に移動している間に文字起こしが完了するので効率的に作業を進めることができます。

生成AIを活用し、人間が書いたような要約作成が可能

生成AIを使った会議録特化の要約機能を搭載しており、議事録作成の作業時間をさらに短縮することができます。全体の流れが掴める要約、トピック別にToDo等をまとめる要約など、必要な形式の要約を短時間で作成することが可能です。

 

OpenAI Whisperを上回る精度!リアルな会議音声の認識精度を向上させた独自AI「shirushi」

リアルな会議音声の認識精度を向上

サービス提供開始から、数百社の企業様にご利用いただく中で、リアルな会議音声データを収集させていただき、弊社が独自に策定したアノテーションルールに基づき訓練データ化し、OpenAI Whisperについてファインチューニングを行いました。

その結果、リアルなビジネス会議音声について、既存サービスに対してだけでなく、オリジナルWhisperに対しても格段に性能の高いAIモデル開発に成功いたしました。

この音声認識AIを「shirushi」と名付け、SecureMemoCloudに搭載しております。

通常の音声認識精度を測る方法として、読み上げ音声に対する認識率を表示されることが多いですが、shirushiでは、リアルな会議音声について音声認識精度を向上させることが最も重要であると捉え訓練を行い、リアルな会議音声の認識率についても自信を持って提供しております。

 

読み上げ音声に対する精度のベンチマーク

↑元の音声はこちらから聴取可

 

実際の会議音声に対する精度のベンチマーク

↑元の音声はこちらから聴取可

SecureMemoCloudを導入した効果

最新モデル「GPT-4o」搭載「具体情報を落とさない」AI要約

生成AIを活用し、会議録に特化した形式の2種類の要約を提供しています。会議に参加していなかった人向けの概要を掴む「全体要約」と、会議に参加していた人向けに詳細の抜け漏れチェックを行う「トピック別要約」です。

SecureMemoCloudのAI要約の大きな特徴として、「具体的な情報」を保持した自動要約が可能という点があります。様々なAIが開発される今日ではありますが、音声から具体的な情報を保ったまま要約をするのは、実は依然として容易ではありません。

弊社のAI要約は、要約する文章自体の質「AI文字起こしの精度」を高め、さらに要約の精度を下げる要因である「長い音声により落ちる具体情報」を落とさない工夫を行うことで、本当に必要な箇所を残した「具体情報」が含まれた要約を実現しております。

全体要約

全体要約は会議に参加していない人でも、まず文字起こし結果全体の概略をつかめるように設計された要約です。少ない分量ながら、具体的な場所や時間などの重要な情報を落とさないように設計されています。

トピック要約

トピック別要約は、会議参加者が知りたい要点やToDoを確認するための要約です。会議で話されていたトピックとその説明、さらにその要点とTodoを要約します。

要約の例

元の文字起こし結果

時間 話者 発話
00:00:03 平本 ちょっと今日皆さんに早めにお伝えしたいことを、
00:00:08 平本 ちょっとお伝えしていきたいです。まずは展示会がもう来週の火曜から、
00:00:15 平本 21時までということで皆さんのシフトって確認していただきました?
00:00:24 平本 ここに割り振りしているので、後でまたこのスプレッドシート共有するので、
00:00:29 平本 見ておいてもらっているので、
00:00:32 平本 そういうふうにさせていただいています。
00:00:35 平本 今回は、
00:00:38 岸谷 Web会議で何か共有とかって、
00:00:41 平本 そっちの方面で、
00:00:42 岸谷 ちょっと視力的に微妙だったり、
00:00:43 岸谷 たまに見えないときがありそうだったので、
00:00:46 岸谷 すいません。
00:00:47 山内 このスプシのURLを、
00:00:50 平本 そうですね。
00:00:52 岸谷 どちらか
00:00:55 平本 Google見つけますね。
00:00:58 岸谷 お願いします。
00:01:05 平本 スプシのリンクを、
00:01:07 平本 送りますね。
00:01:31 平本 今回はDXEXPOというもので、
00:01:36 平本 前回10月に出たのと、
00:01:38 平本 またちょっと違う会社さんが運営しているものになりますが、
00:01:42 平本 狙いとしてはDXに関するシステムITの展示会というところで、
00:01:49 平本 お客さんというか、出展者側も割と似ているところがあるかなという風に思います。
00:01:55 平本 場所が東京ビッグサイトなので、
00:01:56 平本 前回よりはかなり近くなっているというところで行きやすいかなと。
00:02:00 平本 来場予定人数は今のところ、この2万人。
00:02:03 平本 これちょっと細かいです。
00:02:05 平本 前回の人数なんですけど、
00:02:08 平本 1個前に出ていただいたのとほぼ同じぐらいのイメージです。
00:02:14 平本 場所が3ホール使ってまして、
00:02:17 平本 うちちょっと遅かったので、
00:02:19 平本 一番端っこのところに当たっているんですが、
00:02:22 平本 ちょっと見えないですので、
00:02:24 平本 ちょっと手元で確認してもらえればと思います。
00:02:26 山内 カログラスの違い。
00:02:29 平本 ヤプリのところ。
00:02:30 平本 ヤプリかなり出たんですけど。
00:02:32 平本 今回は競合が今探し出したところで、
00:02:34 平本 時空テクノロジーさんで、
00:02:36 平本 ヨメルさんがクラウドの、
00:02:38 平本 こっちは違うかな。
00:02:40 平本 こっちはハード感あるので、
00:02:43 平本 前回よりはあるのかなという感じですかね。
00:02:47 平本 来ているという感じになります。
00:02:49 松浦 前回ほどは来ないかな。場所的に。
00:02:53 平本 そうですね。場所的にはちょっと横になっちゃうんですけど。
00:02:59 富村 クラウドの近くですからね。
00:03:01 岸谷 だいぶ端っこ。
00:03:01 平本 そうなんですよね。
00:03:03 平本 なんでここまで来てくれるかというところが
00:03:05 平本 問題になります。
00:03:06 富村 お休みらしいですよね。
00:03:07 平本 そうですね。
00:03:08 平本 ちょっと声出しをしなきゃいけないんですよね。
00:03:12 平本 声出し。
00:03:13 岸谷 声ここだったから。
00:03:17 平本 一応、この展示会目標みたいなのもできてまして、
00:03:24 平本 見たのはこういう感じにしているんですけど、
00:03:26 平本 前回よりもブースのサイズが、
00:03:28 平本 ちょっと小っちゃいというのもあって、
00:03:29 平本 前回よりは少なめにはしているものの
00:03:34 平本 野心的な目標を求めてやっていきたいなと思いますので、
00:03:40 平本 ここをちょっと探していけたらというところで。
00:03:44 平本 メインとしてはセキュアメモが
00:03:46 平本 メインのエンジンにあるんですけども、
00:03:48 平本 今回はセキュアメモクラウドも、
00:03:51 平本 ベータがリリースしていますし、
00:03:53 平本 そちらももっとアピールできたらなということで、
00:03:55 平本 チラシも新たに作っています。
00:03:57 平本 その他のサービスはそのままで
00:04:00 平本 前回と同じような感じで紹介をしていけたらと思います。
00:04:05 平本 すでにまず1個お伝えしたいところは、
00:04:09 平本 訪問予約という今回の展示はあるんですけど、
00:04:12 平本 訪問予約が入ってまして、
00:04:15 平本 初日と2日目に結構入ってきています。
00:04:18 平本 これちょっと逃さないようにしなきゃいけないので、
00:04:21 平本 一応その時間私がいれば、
00:04:24 平本 しっかり見ておくようにするんですが、
00:04:27 平本 もしそういう人が入ってきそうになったら、
00:04:31 平本 こういう人たち、そういえばいたなというふうに、
00:04:33 平本 思ってつないでもらえればと思います。
00:04:36 平本 松田さんの時間だけ私いないので、
00:04:39 平本 松田さんこの2人は、
00:04:41 平本 とらえていただけたら今のところ思っています。
00:04:48 平本 2日目がこの感じだと、
00:04:49 平本 2日目が多いのかなというふうに、
00:04:51 平本 ちょっと今見えている状況で。
00:04:54 平本 はい。
00:04:56 平本 今回もちょっとトークスクリプト後にするんですけど、
00:05:01 平本 全然ここら辺できてないんですが、
00:05:03 平本 これがちょっとさっき言ったことで、
00:05:05 平本 今回名刺交換の仕方が、
00:05:09 平本 無料で使えるリードスキャナというところで
00:05:12 平本 そちらの方がすごい情報をもらえるのが便利ということで、
00:05:15 平本 これをちょっと皆さんのスマホで、
00:05:17 平本 読み込んでいただきたいというのもあります。
00:05:19 平本 各自のリンクを作成をしたので、
00:05:25 平本 できれば今ちょっと接続できるかというのを、
00:05:30 平本 試してもらいたいなというのがあります。
00:05:32 平本 今日難しかったら
00:05:34 平本 ちょっと当日までに確認お願いします。
00:05:40 平本 スマホでどうしたらいいんだ。
00:05:42 富村 Excelをスマホで開く。
00:05:44 山内 QRリンクとか、何か見せられたら、
00:05:47 山内 そのページに
00:05:49 山内 使えるページに入っちゃう。
00:05:51 平本 そうですね。これをスマホで読むと、
00:05:53 山内 右下のQRコードを、
00:05:55 山内 拡大させて、スマホで読む。
00:05:58 平本 違います。
00:05:59 平本 これをスマホで開くです。
00:06:01 平本 このリンクをスマホで開く。
00:06:04 富村 これQRリンクって書いてありますが、
00:06:05 富村 お客さんが読むの。
00:06:07 平本 いや、自分たちのまずページ。
00:06:09 平本 自分たちがお客さんのQRを読むためのページに、
00:06:14 平本 到着するという感じです。
00:06:15 平本 マーケティング。
00:06:17 平本 Slackとか何かがやりやすいのかね。
00:06:18 富村 Slackは多分。
00:06:22 平本 今Slackで送ったので。
00:06:30 平本 一応テストのQRがあるので、
00:06:33 平本 それを
00:06:36 平本 見せてもらいたい。
00:06:51 平本 これでテストが、
00:06:54 岸谷 参加者の、
00:06:56 平本 これだ。これを読んでみてもらっていいですか。
00:06:59 平本 なんて言ったの。
00:06:59 平本 いけます。
00:07:00 松浦 会場者ルーク。
00:07:01 平本 そうしたらですね。
00:07:03 平本 まず1回皆さん読んでもらって。
00:07:10 平本 首からかけている、いつものやつあるじゃないですか。
00:07:14 平本 あそこにQRコードが書いてあるみたいなので。
00:07:17 岸谷 読ませてください。ってこれで。
00:07:19 平本 じゃあ、すいませんって言って。
00:07:20 山内 アプリというよりはブラウザ。
00:07:22 平本 ブラウザですね。
00:07:26 平本 これを読み取ったら、
00:07:28 平本 リード情報というところにタグが入っていると思うんですけど、
00:07:32 平本 ランクメモがあるんですね。
00:07:34 平本 そこにタグを選択できるようになっていまして、
00:07:37 平本 ここをちょっと入れといてほしいなというので、
00:07:40 平本 今いくつか登録しました。
00:07:44 平本 もう何種類か全部バーって入れちゃったんですけど、
00:07:48 平本 必ず入れてほしいのは、
00:07:49 平本 何のサービスに興味を持っていたかというのをチェックするのと、
00:07:54 平本 あと確度ですね。
00:07:56 平本 その他特徴的なところに資料とか商談とか情報収集とか
00:08:01 平本 分かったらそれをチェックするだけでもいいですし、
00:08:05 平本 細かい話が聞けたようであれば、下のメモに、
00:08:08 平本 ちょっと出てもらえれば、
00:08:11 平本 後々情報が見やすいというので、
00:08:14 岸谷 自動保存ですか。
00:08:15 松浦 自動保存っぽい。
00:08:17 岸谷 何も保存しなくてもいいという感じになっています。
00:08:23 山内 ほしいじゃなくて、ABCで書くのって、
00:08:25 山内 ほしいは無視していい。
00:08:26 平本 ほしいは無視でいい。ちょっと分かります。
00:08:29 平本 ほしい決めてもいいですけど。
00:08:31 松浦 社内でルールを統一できたら。
00:08:34 松浦 前なんかABCみたいなのやらなかったっけ。
00:08:35 平本 そうです。ABCしたので。
00:08:37 平本 星でABCのところの意味合いに足せるか。
00:08:41 平本 そうしますかね。じゃあ、1か3か5ぐらいにして。
00:08:46 山内 5段階したらSSみたいなのが付けられるというのは。
00:08:49 平本 そうですね。5段階迷う。
00:08:53 松浦 1.3.5でいいと思います。
00:08:54 平本 一旦1.3.5で。ちょっとよく分からなかったら。
00:08:59 松浦 5がAかな。5がAですかね。
00:09:02 松浦 Aは。
00:09:03 平本 Aはもうなんだろう。
00:09:05 松浦 すぐにでも連絡して。
00:09:05 平本 すぐにでも欲しそうみたいな。
00:09:08 松浦 3は普通に可能性が分からないけど、商談はしてくれる。
00:09:13 松浦 1は本当。
00:09:16 岸谷 ちょっと欲しそうな。
00:09:18 平本 そうですね。

全体要約

展示会全般の準備とDXEXPO具体的計画

来週の火曜日から始まる展示会の準備とスタッフシフトの確認が話し合われ、スプレッドシートでのシフト確認が指示されました。加えて、DXEXPOにおける詳細説明、出展計画、訪問予約の確認が行われました。DXEXPOはITとDXに関する展示会で、東京ビッグサイトで開催され、セキュアメモクラウドのベータリリースを含むサービスの紹介がメインとなります。初日と2日目の訪問予約の状況、および名刺交換のためのリードスキャナアプリの使用方法についての指示もありました。

 

トピック要約

DXEXPOの詳細説明、出展計画、および訪問予約の確認
DXEXPOに関する詳細な説明、出展計画、および訪問予約の確認が行われました。DXEXPOはITとDXに関する展示会で、東京ビッグサイトで開催されます。出展者としては、セキュアメモクラウドのベータリリースを含むサービスの紹介がメインとなります。また、訪問予約が初日と2日目に多く入っていること、名刺交換のためのリードスキャナアプリの使用方法についても話し合われました。
■ 要点
DXEXPOはITとDXに関する展示会で、東京ビッグサイトで開催される。セキュアメモクラウドのベータリリースを含むサービスがメインの展示内容。 訪問予約が初日と2日目に多く、リードスキャナアプリの使用方法が共有された。
■ ToDo
チラシの新規作成を行い、展示会でのサービス紹介を準備する。 訪問予約が入っている時間帯は特に注意して対応する。 リードスキャナアプリの使用方法を確認し、当日までに全員が使えるようにする。

 

圧倒的な音声認識精度でこんなお悩みを解決!

議事録作成に時間が取られている

議事録は「決定事項が決まった経緯を知る」「後で言った言わないの問題を避ける」などの目的で重要ですが、会議で発言しながら記録するのは難しく、また会議後に音声を聞きながら文字起こしするのは会議時間以上に時間がかかってしまいます。SecureMemoCloudはそのお悩みを一挙に解決します。

 

従来の音声認識ソフトでは手直しが大変

従来の音声認識ソフトでは、文字起こしの精度の問題に加えて「えっと」「あのー」といった、発言はあるが議事録では削除したい文言(フィラー)が含まれてしまい、結局議事録作成の手間が変わらない問題がありました。SecureMemoCloudは、高い認識精度とフィラー除去を兼ね備えたAIを搭載しており、手直しが少なく済みます。

 

会議のデータ化を進め会社の新しい資産にしたい

そもそも、会議の会話を手間なくデータに残せるなら、もっとたくさんの会議をデータ化したいニーズもあるのではないでしょうか。SecureMemoCloudであれば、これまでデータ化できず消えてしまっていたものを新たにデータ化し、会社の新しい資産にすることができます。

 

声紋登録不要の完全自動話者特定

声紋登録が必要な話者識別機能は、様々な人が参加する会議では事実上使うことができません。

Nishikaでは、事前の声紋登録が不要な完全自動の話者識別AIを独自開発。

⾳声区間検出・話者⾳声からの特徴量抽出の2点について、個別に最適化したニューラルネットワークを適⽤しています。

約100言語の音声の文字起こしに対応

日本語だけでなく、英語、中国語、タイ語などを含む約100言語の音声文字起こしが可能です。

対応言語例

約100言語の音声について、英語や日本語への翻訳も可能

100言語の音声について、その言語での出力だけでなく、指定した言語での出力が可能。つまり、英語や日本語(β機能)への翻訳も可能です。

高精度な英語訳

外国語の音声に対して、英語モードを指定することで高い精度で英語訳での出力が可能。何語か分からない音声でも、100言語の中に含まれていれば翻訳可能です。

簡易な日本語訳(β機能)

外国語の音声に対して、日本語モードを指定することで簡単な日本語訳での出力が可能。何語か分からない音声でも、100言語の中に含まれていれば翻訳可能です。

 

 

よくある質問

ここに無いご質問についてもお気軽にお問合せください。

文字起こしの精度はどの程度ですか?

世界最高水準96.2%の精度となります。対面会議のように、ノイズが混ざっていたりさほど明瞭ではない音声でも高い認識精度を誇る点が強みです。

文字起こし結果の手直しの手間はどうですか?

SecureMemoCloudでは、「えっと」「あのー」等のフィラーがほぼ除かれるため、文字起こし結果の手直しの手間が少ないのが特徴です。また、単語登録機能や、生成AIを活用した自動校正機能も搭載予定で、手直しをほとんど不要とすることも可能です。

話者の特定は自動でできますか?

事前の声紋登録が不要な、完全自動の話者特定AIを搭載しています。数名の音声であれば高い識別精度を実現します。

要約もしてくれますか?

生成AIを活用し、決定事項・ToDoの出力をするなど、会議録に特化した形式の要約を提供しています(詳細)。
他サービスに比べて具体情報を落とさずに要約を生成できる点が強みです。

文字起こしにはどのくらい時間がかかりますか?

60分の音声を4分程度で文字起こしが可能です。AWS上に構築したGPUサーバー環境にて、高速の処理を実現します。 文字起こしが完了した発話から順に表示しますので、文字起こし開始直後から処理結果を確認できます。全ての処理が終わるのを待つ必要もありません。

導入実績はありますか?

β版提供開始から3ヶ月で、500社超にご利用いただいています。
SecureMemoCloudは、同様の音声認識エンジンを搭載したオンプレミス文字起こしソフトウェア「SecureMemo」のクラウド版として生まれたサービスです。

SecureMemoとしては「最高水準の音声認識精度」「オンプレミス利用」を両立する唯一無二の製品として、警察、官公庁、自治体、病院、学校、民間企業(経営企画部門)といった皆様にご利用いただいています。

料金プラン

精度を見る|無料デモも可能です。詳細はお問い合わせください。

まずは、どの程度使えるのか?精度を見ていただくために無料でお試しいただけます。(無料デモはクラウド版となります)

デモ希望の方や、製品について詳しく知りたい方はぜひお問い合わせください。

私たちの事業は、AIプロダクト事業、AIコンサルティング・開発事業、そしてAI人材事業の3つの柱から成ります。 全ての事業がクライアントのデジタルトランスフォーメーションを実現するためのもので、異なる側面からクライアントに革新的かつ実用的な価値を提供することで、デジタルの力を最大限に活用したビジネスの進化を支援します。