Google представил систему Speech-to-Retrieval

Google Research анонсировал масштабное обновление технологии Voice Search, которая теперь работает на принципиально иной архитектуре — Speech-to-Retrieval (S2R). Новая система на основе искусственного интеллекта впервые позволяет выполнять поиск напрямую по аудиозапросу, минуя традиционный этап преобразования речи в текст.

Как работала старая система

До этого момента голосовой поиск Google использовал каскадную модель Cascade ASR (Automatic Speech Recognition). Она сначала преобразовывала голосовую фразу в текст, затем передавала запрос стандартной поисковой системе для ранжирования страниц. Главный минус такого подхода — потеря контекста и ошибок распознавания. Даже небольшие искажения в звуке могли кардинально изменить смысл. Например, если модель ASR путала слова «scream» и «screen», пользователь, запрашивая «The Scream painting», получал результаты о росписи экранов вместо картины Эдварда Мунка.

Новый принцип работы

Модель Speech-to-Retrieval (S2R) радикально меняет этот подход. Она использует речь непосредственно как входные данные — то есть система анализирует сам звуковой сигнал, а не его текстовую расшифровку. На основе обширных наборов данных, включающих миллионы пар «аудиозапрос – документ», ИИ определяет смысл запроса и находит релевантные результаты.

В её основе находятся две нейросети:

  • Аудиокодер — переводит устную речь в векторное представление, отражающее смысл высказывания.
  • Кодер документов — конвертирует текстовый контент в тот же векторный формат.

Обе модели работают в едином семантическом пространстве, где звуковые и текстовые данные располагаются рядом, если совпадают по смыслу. Благодаря этому система ищет не слова, а смысл речи — что увеличивает точность результатов, особенно при поиске сложных тем, многоязычных запросов или связанных контекста.

Производительность и тесты

Google протестировал S2R по нескольким сценариям: стандартному Cascade ASR и эталонному Cascade Groundtruth (когда система получает «идеальный» текст без ошибок). Результаты показали, что S2R превзошёл Cascade ASR по всем ключевым метрикам и почти достиг уровня идеального эталона. Это означает, что новая модель почти не теряет контекста, даже при нечеткой дикции или шуме в записи.

Масштаб внедрения

По заявлениям компании, S2R уже запущен в эксплуатацию и используется в реальных продуктах Google Search на нескольких языках, включая английский, испанский, японский и хинди. В ближайших планах компании — расширение поддержки на десятки языков, включая русский, учитывая растущую долю голосовых запросов в Яндексе и других поисковиках.

Google отмечает, что переход к S2R — не эксперимент, а «фундаментальное изменение архитектуры интернета». Теперь поиск становится значительно быстрее, ведь отпадает необходимость промежуточного этапа с текстом, а точность ответов возрастает, особенно для разговорных запросов, где люди формулируют мысли не как поисковые фразы, а естественными предложениями.

Что ждёт пользователей и SEO

Появление S2R сигнализирует важный сдвиг для индустрии SEO и голосового маркетинга. Так как поисковая выдача теперь строится на основе смыслового анализа речи, оптимизация контента будет смещаться от ключевых слов к семантической структуре документов и естественной лексике. Кроме того, растёт значение аудиоиндексации, поскольку поисковики всё чаще будут работать с голосом напрямую.

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *