変態事務所のトークロイド調声手順

　最近VOCALOID6のアップデートがあり、遂にVOCALOIDの全てのライブラリで、ピアノロール上のピッチが直接描けるようになりました。

　VOCALOIDの大きなマイナスポイントであった「VOCALOID3/4/5ライブラリはPITパラメータからしかピッチを描けない」という弱点がなくなり、(トークロイドという点から見て)ようやくSynthVやCeVIO(Voisona)と並ぶ使い勝手となりました。

　またこれにより、複数の歌声合成によるトクロ調声作業がより画一的にできるようになったので、ここに私の普段の調声方法をメモ書き代わりに書き記しておきます。

　役に立つかは分かりませんが、参考までにドウゾ。

　ちなみに本記事の内容は、一週間前に投稿したこちらの動画とほぼ同じ内容です。先に本記事の内容を書き、それを元に動画を作っています。

そもそもトークロイドとは
音声収録
トレース
ファイルの変換
調声作業
まとめ

そもそもトークロイドとは

　この記事を読んでいる時点で大体の人が知っていると思いますが、要は「歌声合成ソフトを無理くり何とかして喋らせる」技術やその音声の総称です。

　最近ではより高性能な読み上げソフトが登場しているため影に隠れがちですが、この方法でしか喋らせることのできないキャラクターが一定数存在します(初音ミクとかね)。

　最近はソフトウェアで生成された音声で読み上げる「ソフトウェアトーク」と混同されたりしていますが、そもそも読み上げ合成音声界隈でも様々な呼び名が乱立していますし、結局はPCで合成音声のソフトを使用し(編集労力の差こそあれ)読み上げ音声を出力していることには変わりないので、深く考えるだけ無駄かと思います。

　まあ呼び方なんてどうでもいいよね！

変態事務所

合成音声で色々と遊んでる変な人。合成音声キャラクター達が主人公の動画「変態事務所シリーズ」を投稿しています。

　私のYoutube動画「変態事務所」を見ている人はよく知っているかと思いますが、私は歌声合成ソフトを喋らせるのが割と好きな変態さんであり、VOCALOID以外にも色々な歌声ソフトを使っています。

　一応本記事では最もメジャーな「VOCALOID」での調声について解説します。

音声収録

　自分の調声は基本的に「マイクで自分が喋った声の波形をトレース」して作ります。全てをイチから入力して作ると、人間らしい声の発音タイミング(ノート長)やピッチの高さを設定するのに膨大な時間がかかってしまうためです。

　とは言え、そもそもトレースの作業自体もそこそこ手間がかかるものになっているため、もし普段から手打ちで爆速入力できる人や、MegpoidTalkなどのトークロイド用ツール等を使用している方は5.調声作業まで飛ばして読んてくださいね。

　台本が完成したら、キャラクターごと（あるいは各チャプターやシーンごと）に台詞を喋り、声をマイクで録音します。

　マイクや録音用のソフトは何でも良いですが、音割れ（クリッピング）すると後のトレース作業がやりづらくなるため、音割れはしないように気をつけること。

　マイクが無かったり面倒な人はVOICEPEAKやCeVIOなどの読み上げソフトの音声でも良いです。

トレース

　録音した音声を各種歌声ソフトに流し込み、または直接波形を書き込んでノートとピッチをトレースします。

トレースのためのソフトは以下。

1.VOCALOIDプラグイン「V4VocaListener(販売終了)」
2.Synthesizer Vの自動処理「オーディオをノートに変換」
3.フリーソフト「VocalShifter」「Pitch Monitor」などピッチ波形を表示できるソフト

　はい。VOCALOIDの調声とか言いながらしれっと他のソフトも出てきてますが、頑張って使ってみましょう。殆どのソフトは無料で使えます。

　1はノートとピッチを微調整しながら詳細に設定できるが、現在は販売終了。
　2は一発でノートを自動設定できる代わりに、お喋りにおけるノート入力の精度はそこまで良くないため修正が必要。またピッチは自分で描く必要あり。
　3はピッチを見ながら自分でノートとピッチをトレースする必要があり、一番しんどい。

　現時点だと2がおすすめ。

　中の人が男性の場合、女性キャラクターを喋らせるには声が低すぎるため、ピッチのトレース後にノートを1オクターブ程度上げておくと良い。私の場合は男性ライブラリを喋らせる際も3～5音くらいは上げます。

ファイルの変換

　トレース作業で作ったMIDIやSynthVのファイルを、UtaFormatixを使用してVOCALOIDファイル(vsqxまたはvqr)に変換します。

　トラック・ノート・テンポ・ピッチパラメータを維持しながら変換できます。

UtaFormatix

調声作業

　ここからようやく調声作業です。

　人によってやり方は色々ありますが、ノート→発音記号と発声タイミング(ベロシティ)→ピッチ→各種パラメータの順で編集していくとスムーズかと思います。

　VOCALOIDライブラリはパラメータも多いので、使うものだけ解説します。

ノート

　各発音のノート長を完全に同じにすると機械っぽい喋りになるため、ノートのグリッドをOFFまたは最大まで小さくし、①で録音した音声とも聞き比べながら、なんかいい感じの高さと長さに編集します。

　コツとしては、文章を文節ごとに区切り、各文節の最後のノートを気持ち長めに設定すると人間っぽく聞こえやすくなります。

発音記号とベロシティ

　発音記号は厳密にやると結構面倒なので、自分は機械的にパターンを決めて発音記号を変更します。

・鼻濁音で発音記号「g」を「N」に
　1.助詞「が」は鼻濁音に変更
　2.単語途中のが行は鼻濁音に変更
　3.単語の頭のが行は変更しない
　4.上記2で外来語、擬音語、擬態語の場合は変更しない

・音を切る「っ」の発音記号を「Sil」または「Asp」に

・音の無声化「_0」または母音記号の削除(V5以降のVOCALOID Editorの場合はAirパラメータでの調整も可)
　1.か行、さ行、た行、は行の無声子音に挟まれた「い」「う」の母音を無声化する
　2.文や単語の最期のか行、さ行、た行、は行の「い」「う」の母音を無声化する

　特に無声化に関しては、ライブラリごとに最適な結果が変わってくるため、実際に音を聞きながら一番良さそうなものに編集します。

　ここでついでにベロシティ(VEL)も設定します。

　鼻濁音は上げ気味、母音削除での無声化と発音を強調したい部分は下げ気味に編集します。

　上記「っ」の発音記号で「喫茶店」のような「っ+さ行」の言葉に関しては「っ」を削除し「さ行」のベロシティを大きく下げることで自然な発音になりやすいです。

　また、1のノート編集で煮詰まった際はVELをいじると改善することも。

ピッチ

　使用ツールによっては既にピッチはトレースしている状態ですが、そのままだと使い物にならないことが多いため、ここで調整を行います。

　できるだけギザギザと尖った部分を削り、ピッチ全体が滑らかになるように曲線で書きます。マウスで書いてもいいですが、ペンタブ等があると便利かもしれません。

　VOCALOID6ではピアノロール上に直接ピッチを描けるようになったため、ノート間のポルタメントを意識することなく簡単に描けます。

　ここも元の声を聞きながらなんかいい感じに調整します。完全にはトレースせず、喋らせたいキャラクターの感情に合わせてピッチを上下させても良いでしょう。

　VOCALOID5以前のライブラリに関しては、ノートから極端に離れたピッチを書くと声の劣化が激しくなるため、上下しているピッチの中間辺りにノートを置くと劣化を抑えることができます。1ノート中に上下の激しいピッチを描く場合はノートを分割し、階段状に配置すると良い結果になりやすいです。

各種パラメータ

　ピッチまで終わったらその他の各種パラメータを調整します。自分が設定しているパラメータのみ記載しますね。

・E.V.E.C(クリプトン製ライブラリ専用)
　声の表情をコントロールする音素切り替え機能。
　Powerなどの発音強調系を分節の頭に設定すると聞き取りやすくなる。

・ATTACK EFFECT(V5以降)
　VOCALOID版E.V.E.C。こちらは音素の上からエフェクトをかけて表情をコントロールする。
　適用するとピッチが大きく変わるため、かけすぎ注意。

・DYN
　声の大きさ。全体的に上げ気味で、ノートの区切りの部分のみ下げる。
　V4VocaListenerでトレースした場合は極端な数値になることが多いため修正必須。

・BRI
　声の明るさ。全体的にやや高めに設定。

・GEN(V5以降はCHA)
　ピッチの高い部分で少し下げ、低い部分で少し上げる。
　V5以降のエディターではパラメータが上下逆になっているため注意。

・GRW(V4以降)
　グロウル。オラついた声やしゃがれた声を作る時に。

・XSY(複数ライブラリ用)
　PowerやSoftなど、会話に合わせてテンションを変える時に。

・EXT(V5以降)
　声の力度。叫び声などを作る際に上げたり。
　Power系のライブラリの場合はやや下げ気味にいじると良い。

・AIR(V5以降)
　声の息感。最大まで上げると無声化もできる。

　パラメータをいじる途中で違和感が出てきたら、ピッチや発音記号、ベロシティの編集に戻ってこれまたいい感じに調整しましょう。

　ちなみにV4以前のエディターで編集する際、job pluginなどで自動設定できるパラメータもありますが、現状手に入るものがあまりないため省略。

　ここまでできたら音声をWAV出力します。

音声エフェクトで調整

　WAV出力したデータに、コンプレッサーやEQなどのエフェクトを入れて聞き取りやすくします。V5以降なら内臓のエフェクトで調整しても良いです。

　VOCALOIDの古いライブラリには音素によってノイズが乗っているものもあるため、ノイズ除去なども併用するとより良くなるかと思います。

　自分は色々なソフトで喋らせているので、エフェクトはizotope RX(ノイズ除去用波形編集ソフト)のバッチ処理で全部まとめて行います。

現在のバッチ処理

1.ノーマライズ(ピークレベルを揃える)
2.リサンプリング(音声のbit深度とサンプリングレートを上げる)
3.Voice-De-Noise【izotope RX】(音声のノイズ除去)
4.オートボリューム【Melda MAutoVolume】(音声の音量バランスを整える)
5.De-Click【izotope RX】(クリックノイズ除去)
6.De-ess【izotope RX】（さ行のノイズ除去）
7.エキサイター系【Zinaptiq INTENSITY】(声の倍音強調)
8.イコライザー(50kHz以下の音をバッサリカット)
9.ノーマライズ(動画編集用に適したピークレベルに調整)

　ライブラリによってはノイズ除去の効きが強すぎたり、エキサイターで声が歪んだりするため、その辺は適宜エフェクトを入れたり入れなかったりしてます。

　よく分からない人や面倒な人はイコライザー(50～100kHz以下の音をカット)とコンプレッサー系(音量バランスの調整)を入れるだけでもかなり変わります。私は音が歪むのが嫌いなのでコンプではなくオートボリュームを使ってます。

　というか、トクロ動画で音声が聞こえづらい(何を言っているかわからない)原因の8割は音量バランスにあると思っているので、面倒臭がらずにコンプ位はかけましょう、というのが持論です。

　これでようやく完成です。後はそのまま音声出力するなり、動画にブチ込むなりして遊びましょう。

まとめ

　　ということで変態事務所流のトークロイド調声手順の紹介でした。私はいつもこんな感じで調声作業を行っていますよ、というだけで、別にこれが正しい手順とかではないです。

　というか、世のトクロP達の半数以上はピッチなんていじらずにノートを置いて音声出力してる人が大半だと思います(偏見)。超お手軽に作れるのでそれはそれで良いのですが、こういうちょっと凝った作り方も知っておくと、創作の幅がより広がるかと思います。

　また、トクロ関係の記事はV4以前のエディターやPiapro Studioなどで編集している人が殆どであり、最新版のVOCALOID6での記事は全くと言っていいほど見かけないため、是非購入してピッチ調声や各種エフェクトを楽しんでもらえればと思います。最近はV6ライブラリのスターターパックで大分安く購入できますしね(それでもちょっと高いけど)。

　ということで、皆さんも楽しいトークロイドライフを。