
JAPAN AI株式会社(本社:東京都新宿区、代表取締役社長:工藤 智昭、以下JAPAN AI)は、提供しているAI議事録ツール「JAPAN AI SPEECH」の文字起こし機能を強化し、99%の精度を実現したことをお知らせいたします。
概要
「JAPAN AI SPEECH」は、日本語における高精度の文字起こしを特徴とするAI議事録ツールであり、2024年3月に、単語学習機能(ファインチューニング機能)により、専門用語や社内用語が含まれる音声であっても90%を超える文字起こし精度を実現いたしました。
今回、単語学習機能をさらに強化させたことで、99%の文字起こし精度を実現いたしました。
単語学習機能強化の詳細
この度の単語学習機能の強化は、AIの過学習(かがくしゅう)問題に対応することで実現いたしました。
業界用語や社内用語などの特殊な単語は、正確に文字起こしすることが難しく、追加学習によって精度を向上させる必要があります。しかし、学習する単語の数が増えすぎると、これまで正しく認識できていた単語を誤って読み取るケースが発生します(これを過学習といいます)。この問題により、文字起こしの精度を一定以上に高めることが難しくなっていました。
今回のアップデートでは、学習する単語数が増えても過学習のリスクを抑えられる仕組みを開発・実装しました。これにより、より多くの単語学習が可能となり、より高精度な単語認識を実現しています。
文字起こし精度の検証方法、使用データ・条件、および検証結果
検証方法
同一の録音・録画データに対して、新旧それぞれの単語学習機能を適用し、文字起こし精度を比較しました。本検証では、複数の音源を使用し、再現性を確認するための試験を行っています。
使用データ(複数回行った検証のうちの1パターン)
Google Meet上にて行った、JAPAN AIユーザー向けの生成AI勉強会の録画(44分48秒)を使用しました。サービス名や業界用語などを多用しており、それらの単語に対する学習を施しました。
上記データおよび条件下での検証結果

※音声認識の精度を評価する際に用いる指標で、誤って文字起こしされた単語の割合を示しています。計算式は「(挿入単語数 + 置換単語数 + 削除単語数)/正解単語数」
【注目ポイント】音声情報を使用しない単語学習で高精度を実現
単語の追加学習には、学習効果の高さから音声データを使用することが一般的です。しかし、学習のたびに音声を収録することは、ユーザーの利便性を損ねることになります。
JAPAN AI SPEECHの追加学習は、テキスト情報のみで行います。
その上で、高い精度を実現できたことは、JAPAN AIが掲げる「日本企業の生産性向上」に寄与するものと捉えています。
今後について
引き続き文字起こしの精度を高める研究開発を継続しつつ、他のツールとの連携を強化することで、さらなる利便性の向上を実現させていきます。
JAPAN AIのサービス概要
JAPAN AI AGENT
設定した目標やゴールに対し、AIが自ら思考し、特定のタスクを実行するAIシステム。日常的に発生する様々なタスクを自動化することができます。
サービスサイト:https://japan-ai.co.jp/agent/
JAPAN AI CHAT
最新の言語モデルを使用した法人向け生成AI活用プラットフォームです。通常のChatGPTとしての利用はもちろん、データ連携と独自開発による高精度のRAGにより、社内データの検索や、社内データを元にした回答生成も可能です。多数のプロンプトテンプレートや、カスタマーサクセスによるサポートも用意しています。
サービスサイト:https://japan-ai.co.jp/chat/
JAPAN AI SPEECH
議事録を自動で生成するAIサービスです。業界用語への対応や話者分離など、議事録として必要な機能はもちろん、文字起こしした文章をAIにより様々な形に要約・編集できる機能を備えています。
サービスサイト:https://japan-ai.co.jp/speech/
企業プレスリリース詳細へ
PRTIMESトップへ