Яндекс ускорил обучение ИИ-моделей на 30%

Компания «Яндекс» объявила о значительном технологическом прорыве в области обучения больших языковых моделей (LLM). Благодаря внедрению собственной библиотеки YCCL (Yet Another Collective Communication Library) и оптимизации вычислительных процессов, компании удалось не только сохранить качество разработок, но и существенно повысить эффективность инфраструктуры .

YCCL: ускорение обмена данными между GPU

Ключевым нововведением стала библиотека YCCL, разработанная инженерами «Яндекса» для оптимизации коммуникации между графическими процессорами (GPU) при обучении нейросетей .

По данным компании, YCCL позволила добиться следующих результатов:

  • Ускорение обмена данными между GPU в два раза .
  • Сокращение объёма передаваемой информации .
  • Перенос управления с графических процессоров на центральные (CPU), что разгрузило GPU для основных вычислений .

В «Яндексе» подчеркнули, что библиотека успешно масштабируется на крупные кластеры, а её аналоги есть только у мировых лидеров индустрии — Nvidia, AMD и крупнейших китайских IT-гигантов .

FP8: снижение точности ради скорости

Дополнительный прирост производительности обеспечило использование формата FP8 (числа с плавающей запятой пониженной точности). Этот подход позволяет быстрее обучать нейросети и экономить вычислительные ресурсы без критической потери качества .

Благодаря FP8 компании удалось:

  • Увеличить скорость обучения моделей на 30% .
  • Сократить объём передаваемых данных ещё в два раза .

Оптимизация батчей и устранение простоев

Инженеры компании Яндекс также провели исследование влияния объёма данных на скорость обучения. Было установлено, что увеличение этого объёма не приводит к замедлению процесса .

В результате компания смогла увеличить размер батча до 16–32 миллионов токеновЭто позволило минимизировать простои процессоров и загрузить их эффективно .

Экономический эффект

Совокупность внедрённых решений привела к значительной экономии ресурсов. Оптимизация позволила «Яндексу» сократить операционные расходы на 4,8 миллиарда рублей в год, что в среднем составляет 400 миллионов рублей в месяц .

Таким образом, компания не только повысила технологическую эффективность обучения ИИ-моделей. Но и добилась впечатляющего финансового результата.

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *