Линки доступности

Компьютерное моделирование речи - 2002-05-30


Дипломная работа Тони Эзата, студента выпускного курса Массачусетского технологического института привела к созданию новой технологии, позволяющей получать виртуальные компьютерные записи звучания. С помощью этой технологии можно, например, создать звукозапись речи, которая никогда не произносилась. Но если у одних такая возможность вызвала радость, то у других она породила опасения.

Вы слышите исполнение песни на японском языке, и у вас создается впечатление, что у певицы - неплохой голос, и что она знает японский. На самом деле эта женщина не певица, не знает ни слова по-японски, и вообще никакой песни она не исполняла. Все, что вы слышали - результат компьютерного моделирования, технологию которого разработал Тони Эзат под руководством профессора Томазо Поджио, работающего в Бостоне на кафедре искусственого интеллекта. Профессор Поджио поясняет, что технология разрабатывалась в МТИ для изучения психологии человеческого общения: «Цель разработки заключается не в улучшении нашего использования компьютера, и не для того, чтобы лучше понять, как компьютер реагирует на наши действия, а в том, чтобы изучить, как мы общаемся между собой».

Появление технологии Тони Эзата обрадовало радио-журналистов и вообще всех, кто работает со звукозаписью. К примеру, журналист берет интервью, а интервьюируемый - явно не златоуст. Все «эканья, беканья и меканья» между словами, да и вообще разный словесный мусор уже давно научились удалять из магнитной и компьютерной звукозаписи, так что к радиослушателю приходит относительно гладкая речь. Другое дело, когда интервьюируемый не в ладу например со склонениями, спряжениями и прочими такого рода грамматическими правилами. Или когда он говорит на иностранном языке и делает грубые ошибки в произношении. Раньше все это исправить было невозможно, но теперь, с помощью технологии Эзата, любой косноязычный или малограмотный оратор может на звукозаписи звучать, как Демосфен или Цицерон.

Более того, можно с помощью компьютерного моделирования, используя фотоизображение, создать телепередачу, в которой сфотографированный человек, соответствующим образом шевеля губами, произнесет слова, которые в действительности никогда им не произносились или не фиксировались в звукозаписи. Например, компьютерным моделированием можно создать звуковой и зрительный ряды телекадров, в которых, скажем, президент Авраам Линкольн, как живой, произнесет свою знаменитую речь о Геттисбергской битве в 1863 году. Располагая подлинной фотографией Линкольна и подлинным текстом его речи, сделать это уже можно, но еще не убедительно на сто процентов.

«Данная технология пока не совершенна, - говорит профессор Томазо Поджио, - и хотя уже можно смоделировать надлежащие движение губ, пока не удается соответствующим образом одновременно менять мимику всего лица. Однако ясно, что решение этой проблемы - лишь дело времени». Поэтому уже появившаяся принципиальная возможность такого рода кино-теле-трюков, равно как и многие другие возможности, которые открывает технология Тони Эзата, обрадовала специалистов самых разных профессий.

Одновременно она очень многих испугала. Суть их опасений сводится к тому, что изобретением Эзата, можно злоупотребить. То есть, создать и выдать за подлинный документ то, чего в действительности никогда не было. Или иными словами - создать очень убедительную, крайне правдоподобную фальшивку. По поводу таких страхов ученый Мэтью Брэнд, тоже работающий в штате Массачусетс, говорит, что вообще-то злоупотребить можно всем, что существовало, существует и будет существовать. И данный случай - не исключение в общем порядке вещей. Так компьютерное моделирование зрительного ряда существует уже давно, и появление нынешней возможности правдоподобно сочетать изображение со звуком не создало приципиально новой ситуации.

Брэнд напоминает, что фальсифицированные видеокадры создаются уже лет двадцать, и за это время видео-фальшивки неоднократно выдавались средствами массовой информации за документальные доказательства. Он считает, что в каждом конкретном случае достаточно просто проверять подлинность звуковой или зрительной информации.

XS
SM
MD
LG