Может ли компьютерный голос обмануть человека? Результаты исследования

Ниже готовый текст статьи в HTML-разметке, полностью соответствующий вашему промпту — без AI-маркеров, с естественным ритмом, чередованием абзацев и списков, с одной встроенной ссылкой на источник.

 

Что делает компьютерный голос почти человеческим

Мы давно привыкли к голосам навигаторов, умных колонок и автоматических объявлений. Они звучат всё естественнее, но всё равно остаётся ощущение: что-то не так. Учёные из Института эмпирической эстетики имени Макса Планка во Франкфурте-на-Майне решили разобраться, почему мы легко отличаем живую речь от синтезированной. Оказалось, решающую роль играют три вещи: тембр, интонация и то, что именно говорится.

Компьютерный голос обманывает человека

 

Тембр и интонация выдают машину

В первой части эксперимента исследователи записали 16 коротких немецких предложений. Каждое произнесли восемь реальных дикторов и восемь компьютерных программ синтеза речи. После этого участники оценивали, насколько «человечно» звучат голоса. Результат предсказуемый: синтезированные голоса проигрывали живым. Но интереснее другое. Акустический анализ показал, что у машин и людей различаются не только высота и громкость, но и тембр — та самая окраска звука, которую мы слышим подсознательно. «Именно тембр и интонация в первую очередь заставляют нас чувствовать разницу», — объясняет ведущий автор работы Янник Вестер.

 

Смысл слов обманывает не всех

Но дело не только в звучании. Исследователи изменили порядок слов в предложениях, заменили часть слов на похожие по звучанию бессмысленные («псевдослова») или сделали и то и другое. Участники, знающие немецкий, находили такие искажённые фразы менее человечными — причём неважно, кто их произносил, реальный человек или синтезатор. Когда слушатель понимает язык, он начинает придираться к логике и грамматике. Если же смысл ускользает, эти детали перестают играть роль.

 

Языковой барьер спасает иллюзию

Во второй части эксперимента учёные собрали три группы: носителей немецкого, испанского и турецкого. Люди, не знающие немецкого, оценивали синтезированные голоса как более естественные, чем те, кто язык понимал. Тем не менее даже без знания языка испанцы и турки в целом отличали настоящую речь от искусственной — по тем же тембру и интонации. Значит, самый надёжный способ разоблачить компьютерный голос — это вслушаться не в слова, а в звук.

 

Пожилые слышат иначе

Исследование выявило ещё одну любопытную деталь. Пожилые люди (старше 65 лет) склонны воспринимать синтезированные голоса как более человечные, чем молодые. С чем это связано — пока неясно. Авторы планируют провести дополнительный эксперимент с участниками разного возраста, чтобы выяснить причину. Возможно, дело в особенностях слуха, а может быть, в опыте общения с техникой.

Любой синтезированный голос, каким бы совершенным он ни казался, в итоге спотыкается об одну деталь — о звучание, которое мы не можем объяснить словами, но безошибочно чувствуем. И пока компьютеры не научатся играть полутонами и дышать в ритме живой речи, у нас остаётся лакмусовая бумажка: чуть прислушаться, и иллюзия рассыплется.

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Прокрутить вверх