いろいろやってみるにっき

なんとか自分の会社を立ち上げるところまで漕ぎ着けた、てきとーに生きている奴の日記

https化に伴い、表示できなくなっているリンクについて修復中。
2018年から遡って修正し、2015年分まで修正完了。


JuliusでYouTubeからダウンロードしたmp4の音声データを文字起こし練習 その1

こないだ作ったVM上のJulius環境(Ubuntu 18.04)。

 

前回は、VMでもホストOS側のUSB接続マイクから音声入力できるとことまで確認。マイク入力できないと辞書(Julius音声認識パッケージ)の確認時に困るのでちょっと頑張ったが、ウチでやりたいのは音声データからの文字起こし。そこでさらに環境を準備する。

 

Julius音声認識パッケージの準備

前回のサンプルではなく、普通の文字起こし用にはJulius音声認識パッケージを使う。

ディクテーションキット (dictation-kit)

話し言葉モデルキット (ssr-kit)

講演音声モデルキット (lsr-kit)

 

それぞれダウンロードして解凍する。格納ディレクトリはそれぞれのものを用意する。

 

ディクテーションキット

cd julius/
mkdir dict
cd dict/
wget https://osdn.net/dl/julius/dictation-kit-4.5.zip
unzip dictation-kit-4.5.zip 

 話し言葉モデルキット

cd julius/
mkdir ssr-kit
cd ssr-kit/
wget https://osdn.net/dl/julius/ssr-kit-v4.5.zip
unzip ssr-kit-v4.5.zip 

講演音声モデルキット 

cd julius/
mkdir lsr-kit
cd lsr-kit/
wget https://osdn.net/dl/julius/lsr-kit-v4.5.zip
unzip lsr-kit-v4.5.zip 

 

youtube-dlコマンドの準備

こちらを参照。Ubuntuなのでapt-getでインストール。

curl入ってなかったのでインストール。

# 準備
sudo apt install curl
sudo curl -L https://yt-dl.org/downloads/latest/youtube-dl -o /usr/local/bin/youtube-dl
sudo chmod a+rx /usr/local/bin/youtube-dl

# Youtubeからダウンロード
youtube-dl -F https://www.youtube.com/watch?v=DQuZ-E3mCuU
youtube-dl -f 22 https://www.youtube.com/watch?v=DQuZ-E3mCuU
# ダウンロードしたファイル名は長いので短く
mv 経産省、対韓輸出管理厳格化で個別審査は継続 韓国WTO手続き中断-DQuZ-E3mCuU.mp4 press_conference1.mp4

今回ダウンロードした動画はこちら。-fオプションでは-Fオプションで表示される一番下の22を使用した。

 

確認のために再生しようとしたらデコーダーが無いって出たのでインストール。

f:id:shigeo-t:20191123094719p:plain

 

SoundConverterのインストールからWAVへの変換

Juliusはwavファイルとrawファイルじゃないと読み込まない。そこでMP4からWAVに変換する。

Ubuntuなのでコマンドはapt-get。

sudo apt-get install soundconverter

コマンドラインから起動するとこんな感じ。

f:id:shigeo-t:20191123095346p:plain

 

設定の変更

設定をクリックする。

f:id:shigeo-t:20191123095424p:plain

フォーマットをMS Wave(.wav)にする。

f:id:shigeo-t:20191123095515p:plain

Juliusの都合上、リサンプリングにチェックを入れ、モノラル出力を指定する。

f:id:shigeo-t:20191123095634p:plain

 

ファイルの追加~変換

ファイルの追加をクリックし、

f:id:shigeo-t:20191123095807p:plain

変換するMP4ファイルを選択。

f:id:shigeo-t:20191123095923p:plain

変換したいファイルが追加された。

f:id:shigeo-t:20191123100014p:plain

変換をクリック。

f:id:shigeo-t:20191123100040p:plain

できた。

f:id:shigeo-t:20191123100253p:plain

SoundConverterを終了させ、確認する。wavファイルが作成されている。

shigeo@ubuntu:~$ ls -l
合計 389064
-rw-r--r--  1 shigeo shigeo      8980 Nov 18 11:52 examples.desktop
drwxr-xr-x 29 shigeo shigeo      4096 Nov 23 09:02 julius
-rw-r--r--  1 shigeo shigeo 219243215 Nov 22 22:09 press_conference1.mp4
-rw-r--r--  1 shigeo shigeo 179098350 Nov 22 22:09 press_conference1.wav
drwxr-xr-x  3 shigeo shigeo      4096 Nov 18 12:00 snap
drwxr-xr-x  2 shigeo shigeo      4096 Nov 18 12:42 ダウンロード
drwxr-xr-x  2 shigeo shigeo      4096 Nov 18 11:58 テンプレート
drwxr-xr-x  2 shigeo shigeo      4096 Nov 18 11:58 デスクトップ
drwxr-xr-x  2 shigeo shigeo      4096 Nov 18 11:58 ドキュメント
drwxr-xr-x  3 shigeo shigeo      4096 Nov 18 12:35 ビデオ
drwxr-xr-x  2 shigeo shigeo      4096 Nov 18 11:58 ピクチャ
drwxr-xr-x  2 shigeo shigeo      4096 Nov 18 11:58 ミュージック
drwxr-xr-x  2 shigeo shigeo      4096 Nov 18 11:58 公開

 

音声の確認

音声として聞き取れるか確認する。aplayコマンドを使用する。きちんと聞き取れた。

f:id:shigeo-t:20191123100946p:plain

 

音声ファイルの編集

soxコマンドを使用する。WAVファイルは大きいので切り出してJuliusに文字起こしをさせる。また、音量の調整などを行って文字起こしの精度を上げていく。


長くなったので残りは次回以降。

文字起こし技能テスト 公式テキスト 改訂版

文字起こし技能テスト 公式テキスト 改訂版

 
記者ハンドブック 第13版 新聞用字用語集

記者ハンドブック 第13版 新聞用字用語集