На конференции Microsoft Build Nvidia представила новые оптимизации для алгоритмов искусственного интеллекта, доступные в экосистеме RTX, включая графические процессоры GeForce RTX, рабочие станции и ПК.
Представители компании заявили, что последние оптимизации ускоряют работу больших языковых моделей, применяемых в генеративном ИИ. Драйвер версии 555 обеспечивает трехкратное повышение ИИ-производительности видеокарт GeForce RTX и платформ RTX AI PC при работе с фреймворками ONNX Runtime и DirectML, которые запускают ИИ-модели в операционной системе Windows. Кроме того, драйвер увеличивает производительность WebNN для DirectML, используемого веб-разработчиками для внедрения новых ИИ-моделей.
Сейчас Nvidia активно сотрудничает с Microsoft для дальнейшего улучшения производительности графических процессоров RTX и поддержки DirectML в PyTorch.
Новый драйвер Nvidia R555 для графических процессоров GeForce RTX и ПК с RTX включает поддержку метакоманды DQ-GEMM для обработки квантования INT4 только по весу для LLM, новые методы нормализации RMSNorm для моделей Llama 2, Llama 3, Mistral и Phi-3, механизмы группового и многозапросного внимания, а также внимания скользящего окна для поддержки Mistral, обновления KV для улучшения внимания и поддержку GEMM-тензоров, не кратных 8, для улучшения производительности контекстной фазы.
В тестах производительности ORT и генеративного расширения искусственного интеллекта от Microsoft новый драйвер Nvidia показывает прирост производительности для данных типов INT4 и FP16. Благодаря добавленным методам оптимизации, производительность больших языковых моделей Phi-3, Llama 3, Gemma и Mistral увеличивается до трех раз.
Nvidia утверждает, что ее GPU обеспечивают ИИ-производительность до 1300 TOPS, что значительно превышает возможности конкурентных решений.
Читать далее:
Спутниковые наблюдения подсказали, как египтяне могли построить пирамиды
Ледник «Судного дня» оказался более уязвимым, чем считали ученые
Посмотрите на фото Камчатки из космоса
Обложка: Сведения о лицензии