
Компания «Яндекс» объявила о значительном технологическом прорыве в области обучения больших языковых моделей (LLM). Благодаря внедрению собственной библиотеки YCCL (Yet Another Collective Communication Library) и оптимизации вычислительных процессов, компании удалось не только сохранить качество разработок, но и существенно повысить эффективность инфраструктуры .
YCCL: ускорение обмена данными между GPU
Ключевым нововведением стала библиотека YCCL, разработанная инженерами «Яндекса» для оптимизации коммуникации между графическими процессорами (GPU) при обучении нейросетей .
По данным компании, YCCL позволила добиться следующих результатов:
- Ускорение обмена данными между GPU в два раза .
- Сокращение объёма передаваемой информации .
- Перенос управления с графических процессоров на центральные (CPU), что разгрузило GPU для основных вычислений .
В «Яндексе» подчеркнули, что библиотека успешно масштабируется на крупные кластеры, а её аналоги есть только у мировых лидеров индустрии — Nvidia, AMD и крупнейших китайских IT-гигантов .
FP8: снижение точности ради скорости
Дополнительный прирост производительности обеспечило использование формата FP8 (числа с плавающей запятой пониженной точности). Этот подход позволяет быстрее обучать нейросети и экономить вычислительные ресурсы без критической потери качества .
Благодаря FP8 компании удалось:
- Увеличить скорость обучения моделей на 30% .
- Сократить объём передаваемых данных ещё в два раза .
Оптимизация батчей и устранение простоев
Инженеры компании Яндекс также провели исследование влияния объёма данных на скорость обучения. Было установлено, что увеличение этого объёма не приводит к замедлению процесса .
В результате компания смогла увеличить размер батча до 16–32 миллионов токенов. Это позволило минимизировать простои процессоров и загрузить их эффективно .
Экономический эффект
Совокупность внедрённых решений привела к значительной экономии ресурсов. Оптимизация позволила «Яндексу» сократить операционные расходы на 4,8 миллиарда рублей в год, что в среднем составляет 400 миллионов рублей в месяц .
Таким образом, компания не только повысила технологическую эффективность обучения ИИ-моделей. Но и добилась впечатляющего финансового результата.