VK улучшила технологию распознавания речи ASR

AI‑команда VK представила обновлённую технологию автоматического распознавания речи, которая стала точнее примерно на 20% по сравнению с предыдущей версией. Это улучшение напрямую влияет на качество субтитров и расшифровок во всех сервисах экосистемы VK, где используется голос.

Новая версия ASR VK

Обновлённая система ASR переводит голос в текст, одновременно подавляя шумы и точнее различая слова даже при естественной, быстрой речи. Современные нейросетевые модели позволяют учитывать контекст фраз, устойчивые выражения и смысловые связи, поэтому итоговый текст выглядит более естественным и требует меньше ручной правки. Улучшение на 20% по метрикам точности означает заметное снижение количества искажённых слов в субтитрах и транскриптах.

Модель дообучили на расширенной базе аудиоданных из открытых видеороликов VK Видео, что помогло лучше адаптироваться к реальным условиям: различному темпу, интонации, акцентам и бытовому шуму. По результатам внутренних тестов разработчики заявляют, что новая модель превосходит ряд зарубежных решений при распознавании русскоязычных звуковых дорожек.

Где используется технология

ASR VK уже применяется при создании субтитров в VK Видео и VK Клипах, а также в образовательном сервисе Учи.ру. Кроме того, технология обрабатывает голосовые сообщения и «кружочки» во встроенном мессенджере ВКонтакте, улучшая читаемость и поиск по аудиоконтенту. Внутри компании она помогает автоматически расшифровывать записи встреч, формировать краткие конспекты и обогащать мультимодальные модели, которые используются в рекомендательной системе Discovery.

Новая версия технологии уже работает в VK Видео, VK Клипах и ряде внутренних сервисов. Постепенно её интегрируют и в другие продукты VK, чтобы обеспечить единое качество распознавания во всей экосистеме. Для пользователей это означает более точные субтитры, удобный доступ к содержанию голосовых сообщений и более релевантные рекомендации на основе аудиоконтента.

Планы по развитию ASR VK

В дальнейших планах AI‑команды VK — повысить точность распознавания именно в голосовых сообщениях, где часто много шумов и спонтанной речи. Также планируется расширить список поддерживаемых языков, чтобы технология стала полезной для мультиязычной аудитории и региональных сообществ. Отдельное направление развития — внедрение диаризации, то есть автоматического разделения речи по спикерам в одной записи, что особенно важно для встреч, интервью и подкастов.

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *