人工知能は何故女性の声？「Q」が挑んだ男女の声の違い

NAO
2022-02-13(Sun) 12:25
乙女塾

#女声・女性声を出すボイストレーニング

個人的な話ですが、2年ほど前に室内をスマート家電へ切り替えました。Amazonのアレクサです。

「アレクサ！〇〇して」というと好みのBGMをかけてくれるし、洗剤が切れそうとかも教えてくれます。連動させれば照明もオンオフできちゃいます。

何故、AIは女性の声なのか？

ところが、ある日疑問が浮かびました。何故、アレクサは女性の声なんだろうか？実は手持ちにはAppleのSiriやGoogle Smart Homeもありましたが、どれも女性の声です。あるいは男性の声に切り替えることができます。

女性へ対する差別？LGBTを意識するとどちらでもない人たちを考慮していないのではないか？そのような声もあるようです。

そこで、レインボープライドのデンマーク版である「コペンハーゲン・プライド」、Vice Media傘下の「Virtue」が2019年に発表したのがデジタル音声「Q」です。

「Q」はジェンダーニュートラル（ジェンダーレス）なデジタル音声、男女どちらにも聞こえる声になっているそうです。

これって、ボイスの参考になるのでは？今回は「Q」の声について解説します。

「Q」の声は何故ジェンダーレス？

一般的に男性の声は低く、女性の声は高い傾向にあることは知られています。Qは周波数145～165ヘルツ（175ヘルツとするメディアもあり）がスイートスポット、そのことで中性的に聞こえるようになっています。

早速聞いてみましょう。

どうでしょうか？英語の発音ということもあり日本人の感覚で言うと少し低めかもしれませんが、ジェンダーレスな感じに聞こえますよね。

そのほかにも「フォルマント」「SとTの発音に特徴がある」ようです。

フォルマントは端的にここで言えば声のピークのこと。音声の周波数をスペクトルにしたときに強度が大きい周波数帯域のことをいいます。こちらはロボットではなく人間らしくあるためにはフォルマントの形が大事だそうです。

最後は、男女差は声の高低、フォルマントだけでなく発音の仕方です。海外ということもあり英語の発音に準拠、男女の違いである「S」「T」の発音を気を付けているそうです。女性っぽい発音は「S」「T」の音を強調し、語尾を伸ばす傾向にあるそう。男性よりの発音はどちらかというと音が１つ１つ切り取られたような形になっています。

この発音の仕方は日本語でも似たような傾向にあります。男性寄りの発音ははっきりとパツッと切ったような発音、女性寄りの発音は語尾を伸ばす傾向があるからです。

Q側はgenderlessvoice.comにおいて「私たちの目標は、女性の声が一般的に支援タスクに、男性の声がコマンドタスクに好まれるという考え方を打ち破ることです。」とコメントしています。果たして今後、AIの声はどうなっていくのでしょうか？