В индустрии многим знакома ситуация, когда вы быстро задеплоили модель, сделанную DS на коленке. А через месяц, когда её нужно переобучить на новых данных или добавить новый признак, оказывается, что DS по каким-то странным причинам не может этого сделать (потерял код или стер данные, на которых создавал модель).
Вывод модели в продакшн — это не только её упаковка в условный контейнер, но и фиксация процесса ее обучения, и дальнейший мониторинг ее работы. Подробное описание того, как модель была получена, позволяет избежать потерь знаний и результатов экспериментов.
В ОК построили процесс, в котором:
- все параметры обучения, зависимости и артефакты фиксируются в git;
- модели обучаются автоматически в контролируемом окружении;
- модели проходят ревью и попадают в мастер;
- из мастера улетают в продакшен.
Михаил в этом докладе расскажет:
- о процессе и используемых инструментах;
- как организовали версионируемое хранилище дата-сетов на dvc;
- как организовали выкатки через репозиторий;
- путь модельки от поставленной задачи в JIRA до прода и обратно;
- как организовали автоматическое переобучение (не теряя воспроизводимости и возможности отката).