錯聴正弦波音声

説明をよむ
A
B

Aの再生ボタンを押すと口笛のような機械的な音が聞こえてきますが、実は何かを話しています。何と言っているのでしょう(日本語です!)。何度か聞いてみてもわからないときは、Bを聞いてから、もう一度Aを聞いてみましょう。

説明

Aの音は「正弦波音声(sinewave speech)」と呼ばれるもので、周波数が時間的に変化する4つのトーン(正弦波)から構成されています(図1)。それぞれのトーンの周波数はBの音に含まれるある特徴を抽出して、その値に基づいて決められています。Bの音のサウンドスペクトログラム(図2)を見るとスペクトルに山(赤色部分)と谷(青色部分)があることがわかります。このうち、山のピーク(濃い赤色)を結んだのがAにおけるトーンです。

図1:A 正弦波音声

図1:A 正弦波音声

図2:B 原音声

図2:B 原音声

このスペクトルのピークは、フォルマントと呼ばれるもので、人が発話する際の口腔内の共鳴によって生ずるものです。このフォルマントは、音声(特に母音)を知覚するための手がかりであると考えられています。正弦波音声は、この手掛かりのみを取り出して合成した音です。

初めて聞く人にとってこの正弦波音声は、SF映画に出てくる機械のような意味不明の人工的な音にしか聞こえないかもしれません。しかし、Bの音を聞くなどして、いったんそれが語音だと認識すると、Aの音はもはや(聞き取りにくい不自然なものの)なんらかの語音にしか聞こえなくなります。

この体験は、フォルマントといった限定的な情報だけでも人は語音を認知できること(音声知覚の頑健性)だけでなく、語音の知覚が耳からの「ボトムアップ」の情報のみでなく、事前知識などの「トップダウン」の情報から成り立っていることを私たちに気づかせてくれます。

参考文献

  • Remez, Robert E., et al.: Speech Perception Without Traditional Speech Cues. Science, 212, 947-950.

デモについて

  • デモの操作方法については、使用方法のページをごらんください。
  • 錯聴デモを使用される際には、耳にダメージを与えないよう、お使いのデバイスの音量設定を最適な状態にしてからおためしください。

Back to top

言語音知覚の頑健性一覧

母音連結

逆転(全体・局所)

帯域制限

モザイク音声(劣化雑音音声)

正弦波音声

Back to top