Компания Red Hat, известная своими решениями с открытым исходным кодом, недавно представила Red Hat AI Inference Server, что стало значимым шагом к демократизации генеративного ИИ в гибридных облачных средах. Новое предложение в рамках Red Hat AI, сервер для вывода уровня предприятия, было создано на основе мощного проекта vLLM и дополнено технологиями Neural Magic от Red Hat, обеспечивая большую скорость, эффективность использования ускорителей и экономическую эффективность. Это помогает реализовать видение Red Hat по запуску любого ИИ-модели на любом ИИ-ускорителе в любой облачной среде. Будь то в одиночной установке или как интегрированный компонент Red Hat Enterprise Linux AI (RHEL AI) и Red Hat OpenShift AI, эта прорывная платформа дает организациям уверенность в развертывании и масштабировании генеративного ИИ в производственных условиях.
Red Hat AI Inference Server: генеративный ИИ для любой модели и ускорителя в гибридном облаке
"Red Hat AI Inference Server предназначен для удовлетворения спроса на высокопроизводительный, отзывчивый вывод в масштабах, одновременно снижая потребление ресурсов, предоставляя общий слой вывода, поддерживающий любую модель, работающую на любом ускорителе в любой среде", — заявил Джо Фернандес, вице-президент и генеральный директор подразделения AI в Red Hat.
Вывод — это критически важный механизм исполнения ИИ, где предварительно обученные модели переводят данные в реальный мир. Это ключевой момент взаимодействия с пользователем, требующий быстрых и точных ответов. По мере усложнения моделей генеративного ИИ и масштабирования их развертывания вывод может стать узким местом, потребляя аппаратные ресурсы и угрожая снижением отзывчивости и увеличением операционных затрат. Надежные серверы для вывода становятся необходимостью для раскрытия истинного потенциала ИИ в масштабах, преодолевая подводные сложности с большей легкостью.
Red Hat напрямую отвечает на эти вызовы с помощью Red Hat AI Inference Server — открытого решения для вывода, созданного для высокой производительности и оснащенного передовыми инструментами сжатия и оптимизации моделей. Эта инновация дает организациям возможность в полной мере использовать трансформирующую силу генеративного ИИ, обеспечивая значительно более отзывчивый пользовательский опыт и непревзойденную свободу выбора ИИ-ускорителей, моделей и ИТ-сред.
vLLM: расширение инноваций в выводе
Red Hat AI Inference Server основывается на передовом проекте vLLM, начатом в Калифорнийском университете в Беркли в середине 2023 года. Этот проект предоставляет вывод генеративного ИИ с высокой пропускной способностью, поддержку большого входного контекста, ускорение моделей с использованием нескольких графических процессоров, поддержку непрерывной пакетной обработки и многое другое.
Широкая поддержка vLLM для общедоступных моделей — в сочетании с его интеграцией ведущих моделей, таких как DeepSeek, Google’s Gemma, Llama, Llama Nemotron, Mistral, Phi и других, а также открытых, корпоративных моделей рассуждений, таких как Llama Nemotron, — делает его де-факто стандартом для будущих инноваций в выводе ИИ. Ведущие поставщики моделей все чаще принимают vLLM, укрепляя его ключевую роль в формировании будущего генеративного ИИ.
Представляем Red Hat AI Inference Server
Red Hat AI Inference Server сочетает передовые инновации vLLM и превращает их в возможности корпоративного уровня. Он доступен как отдельное контейнеризованное предложение или как часть как RHEL AI, так и Red Hat OpenShift AI.
В любой среде развертывания Red Hat AI Inference Server предлагает пользователям защищенную, поддерживаемую дистрибуцию vLLM, а также:
- Интеллектуальные инструменты для сжатия LLM, значительно уменьшающие размер как основных, так и тонко настроенных моделей ИИ, минимизируя потребление вычислительных ресурсов при сохранении и потенциальном улучшении точности модели.
- Оптимизированное хранилище моделей, размещенное в организации Red Hat AI на платформе Hugging Face, предоставляет мгновенный доступ к проверенной и оптимизированной коллекции ведущих ИИ-моделей, готовых к развертыванию вывода, что помогает ускорить эффективность в 2-4 раза без ухудшения точности модели.
- Корпоративную поддержку Red Hat и многолетний опыт вывода проектов сообщества в производственные среды.
- Поддержку от третьих лиц для еще большей гибкости развертывания, позволяя Red Hat AI Inference Server развертываться на платформах, отличных от Red Hat Linux и Kubernetes, в соответствии с политикой поддержки третьих лиц Red Hat.
Видение Red Hat: любая модель, любой ускоритель, любое облако
Будущее ИИ должно определяться безграничными возможностями, а не ограничениями инфраструктурных силосов. Red Hat видит горизонт, где организации могут развертывать любую модель на любом ускорителе, в любом облаке, предоставляя исключительный, более стабильный пользовательский опыт без чрезмерных затрат. Чтобы раскрыть истинный потенциал инвестиций в генеративный ИИ, предприятиям требуется универсальная платформа вывода — стандарт для более плавных, высокопроизводительных инноваций ИИ, как сегодня, так и в будущем.
Как Red Hat ранее создала открытое предприятие, превратив Linux в основу современной ИТ-инфраструктуры, так компания теперь готова стать архитектором будущего вывода ИИ. Потенциал vLLM как связующего звена для стандартизированного вывода генеративного ИИ очевиден, и Red Hat стремится создать процветающую экосистему не только вокруг сообщества vLLM, но и llm-d для распределенного вывода в масштабе. Видение ясно: независимо от ИИ-модели, базового ускорителя или среды развертывания, Red Hat намеревается сделать vLLM определяющим открытым стандартом для вывода в новом гибридном облаке.
Поддержка и отзывы
Джо Фернандес, вице-президент и генеральный директор подразделения AI в Red Hat
«Вывод — это та область, где реализуется истинное обещание генеративного ИИ, где взаимодействие с пользователем встречается с быстрыми, точными ответами, предоставляемыми определенной моделью, но оно должно быть доставлено эффективно и экономически выгодно. Red Hat AI Inference Server предназначен для удовлетворения спроса на высокопроизводительный, отзывчивый вывод в масштабах при низком потреблении ресурсов, предоставляя общий слой вывода, поддерживающий любую модель, работающую на любом ускорителе в любой среде.»
Рамин Роане, корпоративный вице-президент, управление продуктами ИИ, AMD
«В сотрудничестве с Red Hat, AMD предоставляет готовые решения для эффективного генеративного ИИ в предприятиях. Red Hat AI Inference Server, работающий на графических процессорах AMD Instinct™, снабжает организации возможностями вывода ИИ корпоративного уровня на основе сообщества, поддерживаемыми полностью проверенными аппаратными ускорителями.»
Джереми Фостер, старший вице-президент и генеральный директор, Cisco
«Рабочие нагрузки ИИ требуют скорости, стабильности и гибкости, именно это и предлагает Red Hat AI Inference Server. Это новшество дает Cisco и Red Hat возможность продолжать сотрудничество в поиске новых способов сделать развертывание ИИ более доступным, эффективным и масштабируемым, помогая организациям подготовиться к будущему.»
Билл Пирсон, вице-президент по решениям для центров обработки данных и ИИ и экосистемам, Intel
«Intel с радостью сотрудничает с Red Hat для включения Red Hat AI Inference Server на ускорители Intel® Gaudi®. Эта интеграция предоставит нашим клиентам оптимизированное решение для упрощения и масштабирования вывода ИИ, обеспечивая передовую производительность и эффективность для широкого спектра корпоративных приложений ИИ.»
Джон Фанелли, вице-президент по корпоративному программному обеспечению, NVIDIA
«Высокопроизводительный вывод позволяет моделям и агентам ИИ не только отвечать, но и рассуждать и адаптироваться в реальном времени. С открытым, полнофункциональным ускоренным вычислением от NVIDIA и Red Hat AI Inference Server разработчики могут запускать эффективное рассуждение в масштабе через гибридные облака и развертывать с уверенностью, используя Red Hat Inference Server с новым подтвержденным дизайном NVIDIA Enterprise AI.»
Ознакомьтесь с основными докладами Red Hat Summit ниже, чтобы узнать последние новости от руководителей, клиентов и партнеров Red Hat.
Очень интересно узнать, как Red Hat AI Inference Server изменит подходы к использованию генеративного ИИ в гибридных облачных средах. Будет ли это доступно для малого бизнеса или только для крупных компаний с большими ИТ-ресурсами? Хотелось бы увидеть примеры успешных внедрений.