チケット #36166

JTalk 話者モデルの再評価

登録: 2016-03-18 14:46 最終更新: 2016-06-02 17:13

報告者:
担当者:
チケットの種類:
状況:
完了
コンポーネント:
マイルストーン:
優先度:
5 - 中
重要度:
5 - 中
解決法:
なし
ファイル:
なし

詳細

今日から配信する jpbeta160318 には、JTalk に mei_h という話者を追加しています。 これは MMDAgent プロジェクトが配布している mei_happy に対応する話者音響モデルです。 (従来の mei は mei_normal に対応します)

オリジナルの話者音響モデルは mei_happy の声がかなり高かったので、 mei と mei_h はだいたい同じ声の高さに聞こえるように、あらかじめ補正しています。

もしかすると mei_h のほうがよくなるかも知れないと思い、 2種類の声を組み込んだバージョンを個人的にしばらく評価しました。 しかし、けっきょく私にはどちらがよいか判断できなかったので、 公開ベータ版に加えてみることにしました。

ちなみにこの他の話者モデル (angry, sad) などは、音素継続長の分散が大きいのか、 文末の発音が間延びしてしまい、テキストの読み上げにはあまり向いていないと判断しました。

mei_h のほうがよい、mei だけでよい、mei と mei_h を使い分けたい、 などご要望をお聞かせいただければありがたいです。

チケットの履歴 (6 件中 3 件表示)

2016-03-18 14:46 更新者: nishimoto
  • 新しいチケット "JTalk 話者モデルの再評価" が作成されました
2016-03-31 12:43 更新者: nishimoto
コメント

JTalk の音響信号処理のパラメータをいじるための libopenjtalk の調整に着手。 jpbeta160331 (作業中)では、 まだ関数の export 定義を変更しただけで、実際の調整は行っていない。

今日マージした本家 master では eSpeak-NG への移行が行われて、 話速変換ライブラリが sonic になっている。 ただ、sonic は espeak.dll と一緒にコンパイルされているようなので、 JTalk から使いたければ別途統合作業が必要になる。

2016-04-06 23:08 更新者: nishimoto
コメント

次のベータ版で JTalk mei で「オールパス値」をすこし増やす調整をします。

https://github.com/nvdajp/nvdajpmiscdep/issues/21

同じことが下記で検討されていました。

http://moblog.absgexp.net/openjtalk/

2016-04-28 12:52 更新者: nishimoto
コメント

そろそろリリース版の方針を固めないといけないのですが、 いまのところの方針案は以下です。

  • mei_h はキャンセル
  • mei のオールパス値変更は現在のベータ版を活かす(2016.1jpと比べると落ち着いた声になる)
  • 現在のベータ版の高さ40、抑揚40の設定がデフォルトになるように基準値を再調整する
2016-05-10 19:34 更新者: nishimoto
コメント

話者 mei_h をキャンセルしたところ、やっぱり mei_h がよかったというご意見が多いようなので、 jpbeta160510 にて mei の話者モデルを mei_normal から mei_happy (以前の mei_h )に入れ替えました。 高さの補正値は mei_normal よりも 5 だけ下げています。

mei_normal と mei_happy は文字通り感情を込めた音声コーパスから作られた話者モデルなのですが、 happy のほうがコーパス内の韻律の分散が小さく(ピッチの高いほうに偏っている)ため、 統計モデルから生成したパラメータが破綻しにくいことを期待しています。

上書きインストールすると mei_normal.htsvoice が Program Files に残ってしまいますが、 そのままにしておこうと思います。

2016-06-02 17:13 更新者: nishimoto
  • 状況オープン から 完了 に更新されました
  • チケット完了時刻2016-06-02 17:13 に更新されました

添付ファイルリスト

添付ファイルはありません

編集

このチケットにコメントを追加するには、ログインが必要です » ログインする