Яндекс выложил в открытый доступ новейшую библиотеку машинного обучения
CatBoost — это преемник метода машинного обучения Матрикcнет, который применяется практически во всех сервисах Яндекса. Он предназначается для обучения моделей на разнородных данных. Об этом сообщается в пресс-релизе компании. «Яндекс» открыл доступ к библиотеке CatBoost.
Систему машинного обучения CatBoost, разработанную программистами «Яндекса», выложили в открытый доступ. Как и Матрикснет, CatBoost использует механизм градиентного бустинга (англ. boosting — улучшение): он подходит для работы с разнородными данными. Особенность алгоритмов машинного обучения такого типа состоит в том, что они результативнее, чем остальные модели, работают с разнородными данными, которые описывают разные факторы: например, информацию о демографии, предпочтениях пользователя и историю запросов. К примеру, ежели до этого такие системы как CatBoost работали только с числовыми данными, то сейчас они в состоянии воспринимать типы зданий либо фотографии облаков. Ранее до этого такие данные приходилось переводить на язык цифр, что могло поменять их суть и воздействовать на точность работы модели. Это дает возможность поднять качество обучения. Нужно сказать, что CatBoost — 1-ый русский метод машинного обучения, который стал доступен публике.
Новый метод уже протестировали на сервисах Яндекса. В дальнейшем CatBoost будет работать и на иных сервисах. Его использует также команда Yandex Data Factory — в собственных решениях для индустрии, в частности для оптимизации расхода сырья и предсказания дефектов.
Метод уже сейчас применяется специалистами Европейской организации по ядерным исследованиям. Одна является свободной для скачивания в репозитории на GitHub.