いろいろやってみるにっき

てきとーに生きている奴の日記

古いエントリのサムネイル画像がリンク切れになってたりするけど、チマチマ修正中


JuliusでYouTubeからダウンロードしたmp4の音声データを文字起こし練習 その1

こないだ作ったVM上のJulius環境(Ubuntu 18.04)。

 

前回は、VMでもホストOS側のUSB接続マイクから音声入力できるとことまで確認。マイク入力できないと辞書(Julius音声認識パッケージ)の確認時に困るのでちょっと頑張ったが、ウチでやりたいのは音声データからの文字起こし。そこでさらに環境を準備する。

 

Julius音声認識パッケージの準備

前回のサンプルではなく、普通の文字起こし用にはJulius音声認識パッケージを使う。

ディクテーションキット (dictation-kit)

話し言葉モデルキット (ssr-kit)

講演音声モデルキット (lsr-kit)

 

それぞれダウンロードして解凍する。格納ディレクトリはそれぞれのものを用意する。

 

ディクテーションキット

cd julius/
mkdir dict
cd dict/
wget https://osdn.net/dl/julius/dictation-kit-4.5.zip
unzip dictation-kit-4.5.zip 

 話し言葉モデルキット

cd julius/
mkdir ssr-kit
cd ssr-kit/
wget https://osdn.net/dl/julius/ssr-kit-v4.5.zip
unzip ssr-kit-v4.5.zip 

講演音声モデルキット 

cd julius/
mkdir lsr-kit
cd lsr-kit/
wget https://osdn.net/dl/julius/lsr-kit-v4.5.zip
unzip lsr-kit-v4.5.zip 

 

youtube-dlコマンドの準備

こちらを参照。Ubuntuなのでapt-getでインストール。

curl入ってなかったのでインストール。

# 準備
sudo apt install curl
sudo curl -L https://yt-dl.org/downloads/latest/youtube-dl -o /usr/local/bin/youtube-dl
sudo chmod a+rx /usr/local/bin/youtube-dl

# Youtubeからダウンロード
youtube-dl -F https://www.youtube.com/watch?v=DQuZ-E3mCuU
youtube-dl -f 22 https://www.youtube.com/watch?v=DQuZ-E3mCuU
# ダウンロードしたファイル名は長いので短く
mv 経産省、対韓輸出管理厳格化で個別審査は継続 韓国WTO手続き中断-DQuZ-E3mCuU.mp4 press_conference1.mp4

今回ダウンロードした動画はこちら。-fオプションでは-Fオプションで表示される一番下の22を使用した。

 

確認のために再生しようとしたらデコーダーが無いって出たのでインストール。

f:id:shigeo-t:20191123094719p:plain

 

SoundConverterのインストールからWAVへの変換

Juliusはwavファイルとrawファイルじゃないと読み込まない。そこでMP4からWAVに変換する。

Ubuntuなのでコマンドはapt-get。

sudo apt-get install soundconverter

コマンドラインから起動するとこんな感じ。

f:id:shigeo-t:20191123095346p:plain

 

設定の変更

設定をクリックする。

f:id:shigeo-t:20191123095424p:plain

フォーマットをMS Wave(.wav)にする。

f:id:shigeo-t:20191123095515p:plain

Juliusの都合上、リサンプリングにチェックを入れ、モノラル出力を指定する。

f:id:shigeo-t:20191123095634p:plain

 

ファイルの追加~変換

ファイルの追加をクリックし、

f:id:shigeo-t:20191123095807p:plain

変換するMP4ファイルを選択。

f:id:shigeo-t:20191123095923p:plain

変換したいファイルが追加された。

f:id:shigeo-t:20191123100014p:plain

変換をクリック。

f:id:shigeo-t:20191123100040p:plain

できた。

f:id:shigeo-t:20191123100253p:plain

SoundConverterを終了させ、確認する。wavファイルが作成されている。

shigeo@ubuntu:~$ ls -l
合計 389064
-rw-r--r--  1 shigeo shigeo      8980 Nov 18 11:52 examples.desktop
drwxr-xr-x 29 shigeo shigeo      4096 Nov 23 09:02 julius
-rw-r--r--  1 shigeo shigeo 219243215 Nov 22 22:09 press_conference1.mp4
-rw-r--r--  1 shigeo shigeo 179098350 Nov 22 22:09 press_conference1.wav
drwxr-xr-x  3 shigeo shigeo      4096 Nov 18 12:00 snap
drwxr-xr-x  2 shigeo shigeo      4096 Nov 18 12:42 ダウンロード
drwxr-xr-x  2 shigeo shigeo      4096 Nov 18 11:58 テンプレート
drwxr-xr-x  2 shigeo shigeo      4096 Nov 18 11:58 デスクトップ
drwxr-xr-x  2 shigeo shigeo      4096 Nov 18 11:58 ドキュメント
drwxr-xr-x  3 shigeo shigeo      4096 Nov 18 12:35 ビデオ
drwxr-xr-x  2 shigeo shigeo      4096 Nov 18 11:58 ピクチャ
drwxr-xr-x  2 shigeo shigeo      4096 Nov 18 11:58 ミュージック
drwxr-xr-x  2 shigeo shigeo      4096 Nov 18 11:58 公開

 

音声の確認

音声として聞き取れるか確認する。aplayコマンドを使用する。きちんと聞き取れた。

f:id:shigeo-t:20191123100946p:plain

 

音声ファイルの編集

soxコマンドを使用する。WAVファイルは大きいので切り出してJuliusに文字起こしをさせる。また、音量の調整などを行って文字起こしの精度を上げていく。


長くなったので残りは次回以降。

文字起こし技能テスト 公式テキスト 改訂版

文字起こし技能テスト 公式テキスト 改訂版

 
記者ハンドブック 第13版 新聞用字用語集

記者ハンドブック 第13版 新聞用字用語集

 
お時間あったら、他のエントリもクリックして頂ければ幸いです。