
Компания «Яндекс» сообщила о запуске новой функции в Яндекс Браузере: нейросеть Алиса теперь способна распознавать изображения на веб‑страницах и генерировать их текстовые описания. Эта возможность направлена на расширение доступности интернета для людей с нарушениями зрения, помогая им воспринимать визуальный контент в статьях, интернет‑магазинах и соцсетях.
Возможности функции
Обновлённая версия Алисы анализирует картинки с помощью мультимодальной нейросетевой модели, которая обрабатывает и текст, и изображение одновременно. В отличие от ранних систем, способных лишь определять отдельные объекты, новая модель понимает контекст, взаимосвязи и общий смысл изображения. Это позволяет формировать осмысленные и лаконичные описания, максимально приближённые к человеческому восприятию.
Например, Алиса может рассмотреть фото платья на сайте и описать его фасон, цвет и материал, а также дополнить ответ деталями по запросу пользователя. Для картин, иллюстраций и фотографий нейросеть укажет, кто или что изображено, где действие происходит, какие эмоции выражены на лицах и каково общее настроение сцены.
Как использовать
Чтобы получить описание изображения, пользователю достаточно выбрать пункт «Описать картинку» в контекстном меню или на панели управления браузера. Также описание появится автоматически при наведении фокуса программ экранного доступа (например, JAWS или NVDA).
В Яндекс Браузере для Windows, iOS и Android Алиса не только создаёт текстовое описание, но и озвучивает его голосом, что особенно важно для слабовидящих и слепых пользователей. Настройки доступны в разделе «Специальные возможности», где можно включить или отключить отображение кнопки «Описать картинку» и задать параметры взаимодействия с программой экранного доступа.
Технологический контекст и значение
В пресс-службе Яндекса подчёркивают, что новая функция стала логическим продолжением развития сервисов доступности, в которые уже входят «Режим чтения», тёмная тема, «умная камера» для распознавания предметов и текстов, а также масштабирование интерфейса.
Компания видит своей задачей создание среды, в которой цифровые технологии доступны каждому, независимо от физических возможностей. «Правильное внедрение принципов доступности в интерфейсах и на веб‑сайтах делает интернет комфортнее и безопаснее для всех пользователей», — говорится в заявлении Яндекса.
Роль мультимодальных моделей
В основе обновления лежит развитие мультимодальных технологий, способных объединять текст, изображение и голос в единую систему восприятия. Такие модели повышают точность анализа визуальной информации, упрощают взаимодействие с искусственным интеллектом и позволяют создавать интерфейсы нового поколения — интегрированные, контекстно‑зависимые и естественные для пользователя.