Алиса в Яндекс Браузере научилась описывать изображения для незрячих и слабовидящих пользователей

Компания «Яндекс» сообщила о запуске новой функции в Яндекс Браузере: нейросеть Алиса теперь способна распознавать изображения на веб‑страницах и генерировать их текстовые описания. Эта возможность направлена на расширение доступности интернета для людей с нарушениями зрения, помогая им воспринимать визуальный контент в статьях, интернет‑магазинах и соцсетях.

Возможности функции

Обновлённая версия Алисы анализирует картинки с помощью мультимодальной нейросетевой модели, которая обрабатывает и текст, и изображение одновременно. В отличие от ранних систем, способных лишь определять отдельные объекты, новая модель понимает контекст, взаимосвязи и общий смысл изображения. Это позволяет формировать осмысленные и лаконичные описания, максимально приближённые к человеческому восприятию.

Например, Алиса может рассмотреть фото платья на сайте и описать его фасон, цвет и материал, а также дополнить ответ деталями по запросу пользователя. Для картин, иллюстраций и фотографий нейросеть укажет, кто или что изображено, где действие происходит, какие эмоции выражены на лицах и каково общее настроение сцены.

Как использовать

Чтобы получить описание изображения, пользователю достаточно выбрать пункт «Описать картинку» в контекстном меню или на панели управления браузера. Также описание появится автоматически при наведении фокуса программ экранного доступа (например, JAWS или NVDA).

В Яндекс Браузере для Windows, iOS и Android Алиса не только создаёт текстовое описание, но и озвучивает его голосом, что особенно важно для слабовидящих и слепых пользователей. Настройки доступны в разделе «Специальные возможности», где можно включить или отключить отображение кнопки «Описать картинку» и задать параметры взаимодействия с программой экранного доступа.

Технологический контекст и значение

В пресс-службе Яндекса подчёркивают, что новая функция стала логическим продолжением развития сервисов доступности, в которые уже входят «Режим чтения», тёмная тема, «умная камера» для распознавания предметов и текстов, а также масштабирование интерфейса.
Компания видит своей задачей создание среды, в которой цифровые технологии доступны каждому, независимо от физических возможностей. «Правильное внедрение принципов доступности в интерфейсах и на веб‑сайтах делает интернет комфортнее и безопаснее для всех пользователей», — говорится в заявлении Яндекса.

Роль мультимодальных моделей

В основе обновления лежит развитие мультимодальных технологий, способных объединять текст, изображение и голос в единую систему восприятия. Такие модели повышают точность анализа визуальной информации, упрощают взаимодействие с искусственным интеллектом и позволяют создавать интерфейсы нового поколения — интегрированные, контекстно‑зависимые и естественные для пользователя.

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *