
Google Research анонсировал масштабное обновление технологии Voice Search, которая теперь работает на принципиально иной архитектуре — Speech-to-Retrieval (S2R). Новая система на основе искусственного интеллекта впервые позволяет выполнять поиск напрямую по аудиозапросу, минуя традиционный этап преобразования речи в текст.
Как работала старая система
До этого момента голосовой поиск Google использовал каскадную модель Cascade ASR (Automatic Speech Recognition). Она сначала преобразовывала голосовую фразу в текст, затем передавала запрос стандартной поисковой системе для ранжирования страниц. Главный минус такого подхода — потеря контекста и ошибок распознавания. Даже небольшие искажения в звуке могли кардинально изменить смысл. Например, если модель ASR путала слова «scream» и «screen», пользователь, запрашивая «The Scream painting», получал результаты о росписи экранов вместо картины Эдварда Мунка.
Новый принцип работы
Модель Speech-to-Retrieval (S2R) радикально меняет этот подход. Она использует речь непосредственно как входные данные — то есть система анализирует сам звуковой сигнал, а не его текстовую расшифровку. На основе обширных наборов данных, включающих миллионы пар «аудиозапрос – документ», ИИ определяет смысл запроса и находит релевантные результаты.
В её основе находятся две нейросети:
- Аудиокодер — переводит устную речь в векторное представление, отражающее смысл высказывания.
- Кодер документов — конвертирует текстовый контент в тот же векторный формат.
Обе модели работают в едином семантическом пространстве, где звуковые и текстовые данные располагаются рядом, если совпадают по смыслу. Благодаря этому система ищет не слова, а смысл речи — что увеличивает точность результатов, особенно при поиске сложных тем, многоязычных запросов или связанных контекста.
Производительность и тесты
Google протестировал S2R по нескольким сценариям: стандартному Cascade ASR и эталонному Cascade Groundtruth (когда система получает «идеальный» текст без ошибок). Результаты показали, что S2R превзошёл Cascade ASR по всем ключевым метрикам и почти достиг уровня идеального эталона. Это означает, что новая модель почти не теряет контекста, даже при нечеткой дикции или шуме в записи.
Масштаб внедрения
По заявлениям компании, S2R уже запущен в эксплуатацию и используется в реальных продуктах Google Search на нескольких языках, включая английский, испанский, японский и хинди. В ближайших планах компании — расширение поддержки на десятки языков, включая русский, учитывая растущую долю голосовых запросов в Яндексе и других поисковиках.
Google отмечает, что переход к S2R — не эксперимент, а «фундаментальное изменение архитектуры интернета». Теперь поиск становится значительно быстрее, ведь отпадает необходимость промежуточного этапа с текстом, а точность ответов возрастает, особенно для разговорных запросов, где люди формулируют мысли не как поисковые фразы, а естественными предложениями.
Что ждёт пользователей и SEO
Появление S2R сигнализирует важный сдвиг для индустрии SEO и голосового маркетинга. Так как поисковая выдача теперь строится на основе смыслового анализа речи, оптимизация контента будет смещаться от ключевых слов к семантической структуре документов и естественной лексике. Кроме того, растёт значение аудиоиндексации, поскольку поисковики всё чаще будут работать с голосом напрямую.