音声・動画データの文字起こし、テープ起こしサービスを提供しているデータグリーンを運営する株式会社アラジンは、「形態素解析に役立つ文字起こし」を2023年8月28日に公開しました。
データグリーン「形態素解析に役立つ文字起こし」
https://www.data-green.jp/morpheme/
人間が情報を伝えたり、コミュニケーションを取ったりするために用いられる言語を自然言語といい、日常会話やメール、テレビ、SNS、本などでさまざまな形式で表現されています。
特に日本語は、文法上の制約が少なく、言葉の組み合わせや文脈によって意味が変わったり、同じ言葉でも異なる解釈が生じたりすることがあるため、言葉の分割や情報処理の難易度は非常に高いとされていました。
しかし、近年、言語処理に対する技術、方法の進化で、コンピュータや人工知能(AI)が人間の自然言語を理解し、音声認識や自動要約、言語翻訳、チャットボット、質問応答システム、感情分析などさまざまな分野で活用されています。
そういった自然言語処理(NLP)にはいくつか手法があり、そのなかで最も基礎的な技術である「形態素解析」について解説します。
形態素解析とは 日頃使っている言葉(自然言語)を「形態素」(=言語において最小の意味を持つ単位)に分割し、単語や助詞、助動詞、名詞などの品詞の判別を行う手法のことです。
例)
「私は駅で友人を待っている」
↓
上記を形態素まで分割すると、 「私・は・駅・で・友人・を・待って・いる」
このように形態素に分割し、品詞や活用形などの情報の付与を行います。
要素まで分解するので「待っている」を「待つ」+「いる」にまで分割をしてしまうのが少し難しいところかもしれません。
■形態素解析の実用例
形態素に分割したデータはさまざまな分野で活用されています。
・機械翻訳
各単語に対して品詞を付与したあと翻訳の対象となる言語に 変換することでより正確な翻訳結果を得ることが可能です。
・情報検索・検索エンジン
検索クエリやウェブページの文書を適切に分 割し、キーワードの抽出や検索結果の精度を向上させます。
・文章要約
大量の文章から要点を抽出して簡潔にまとめることで重要なキーワードや句を抽出することが可能です。
自然言語処理の分野はスマートスピーカーにも使われています。
・感情分析
ユーザーの感情や評判に関連するキーワードを抽出することが可能です。
文字起こしではあえて敢えて一般利用目的に「ケバ取り」ではなく、「素起こし」で依頼されることが多いケースで、例えば相手側の反応を逐一確認 したい人事面談やあるいは裁判などの証拠での使用目的になります。
■文字起こしの種類
https://www.data-green.jp/#type
■文字起こしと形態素解析
形態素解析を行うには、元になるテキストデータを生成しておく必要があります。
インタビューや面談、グループワーク、講演会などの音声データをテキスト化する作業、それが文字起こしになります。
高品質な解析をおこなうためにテキスト化をおこなう際は以下の点が重要です。
1. 正確な文字の記録
文字起こしを行う際は、できるだけ正確に音声の内容を文字として記録することが重要です。
日本語には多数の同音異義語が存在するため、漢字の誤変換や誤認識などで違った意味合いとなります。
例)「終了」と「修了」、「送る」と「贈る」、「現状」と「原状」、「保険」と 「保健」など
2. 句読点や区切りの追加
音声データには、話者のイントネーションや言葉の節目が明確でない場合があります。
文字起こしの過程で、句読点や文の区切りを適切に追加することで、文脈の理解に役立ちます。
3. 話者の識別
複数の人物が会話をしている場合、話者の識別をすることが重要です。
発話情報を適切に記録することで、各発話者の文を区別しやすくなります。
4. 音声の補足情報の記録
音声データに含まれる環境音や特定の音の説明、音声の感情表現などの補足情報を記録することも役立ちます。
音声の特徴や文脈をより正確に把握することができます。
近年になってAIが高精度の音声認識技術を持つようになりました。
しかし、残念ながらまだかなり限定された条件下でしか実用されていません。
【AIによる文字起こしについて】
https://www.data-green.jp/ai/
【トランスクリプトで文字起こし】
https://www.data-green.jp/transcript/
【ChatGPTと文字起こし】
https://www.data-green.jp/chatgpt/
上記に記載した点や複雑な専門用語、複数話者の同時発話、ノイズ・環境音交じりなど音質の良くない音声データの文字起こしには、まだまだ人間の手による校正や修正が必要です。
形態素解析のみならず、さまざまな解析、研究などに文字起こしデータを活用するためには正確な文字起こしが重要となります。
【音声データの品質と文字起こしの精度】
https://www.data-green.jp/quality_accuracy/