Специализируется TensorFlow Serving на практическом применении алгоритмов машинного обучения. Разработчики тренируют свои модели с помощью TensorFlow, а потом используют API TensorFlow Serving, чтобы среагировать на действие клиента. По словам Google, проект способен также использовать доступные ресурсы графических процессоров для ускорения вычислений.
Вдобавок, постепенно, при совершенствовании модели или при получении новых данных остальная архитектура не нарушается.
TensorFlow Serving написана на C++, а не на Google Go. Программа оптимизирована под производительность и может выполнять более 100 000 запросов в секунду на одно ядро машины Xeon с 16 ядрами.
Код и инструкции доступны на GitHub, лицензия Apache 2.0.