KServe项目新增HuggingFace模型服务运行时支持

2025-06-16 11:27:08作者：咎岭娴Homer

Standardized Serverless ML Inference Platform on Kubernetes

项目地址：https://gitcode.com/gh_mirrors/ks/kserve

在机器学习模型服务领域，KServe作为Kubernetes原生的模型服务平台，近期宣布将新增对HuggingFace模型的原生支持。这一重要更新将使开发者能够更便捷地在生产环境中部署和运行HuggingFace生态系统中的各类预训练模型。

HuggingFace模型服务架构设计

KServe团队设计了两种不同的运行时方案，以满足不同场景下的需求：

1. 基础运行时方案

基础运行时方案采用单一容器架构，通过KServe容器直接托管HuggingFace模型。该方案的优势在于部署简单，直接调用HuggingFace模型API进行推理，遵循标准的推理协议。

这种架构特别适合以下场景：

快速原型开发和测试
对延迟要求不高的应用场景
资源有限的环境

2. 高性能运行时方案

高性能运行时方案采用了更为复杂的双容器架构：

一个容器专门负责文本的tokenization预处理
另一个容器则基于Triton推理服务器进行模型推理

这种架构的优势在于：

通过专用预处理容器优化文本处理流程
利用Triton推理服务器获得最佳推理性能
特别适合高吞吐量、低延迟的生产环境

模型部署配置示例

开发者可以通过简单的YAML配置来部署HuggingFace模型服务。基础运行时方案的配置示例如下：

apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  name: "huggingface"
spec:
  predictor:
    model:
      modelFormat:
        name: huggingface
      runtime: kserve-huggingface
      storageUri: gs://kfserving-examples/models/huggingface

而对于需要更高性能的场景，则可以使用高性能运行时方案：

apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  name: "huggingface-triton"
spec:
  predictor:
    model:
      modelFormat:
        name: huggingface-triton
      runtime: kserve-huggingface-triton
      storageUri: gs://kfserving-examples/models/huggingface

技术实现考量

在实现这一功能时，KServe团队考虑了多个技术因素：

模型兼容性：确保支持HuggingFace模型库中的各类模型，包括但不限于文本分类、问答系统、文本生成等常见NLP任务模型。
性能优化：特别是在高性能方案中，通过分离预处理和推理阶段，并利用Triton的优化能力，显著提升了整体吞吐量。
资源利用率：双容器设计虽然增加了复杂性，但通过职责分离可以更好地利用计算资源。
易用性：保持KServe一贯的声明式API设计理念，使部署配置尽可能简单直观。

未来发展方向

随着这一功能的正式发布，KServe在NLP模型服务领域的能力将得到显著增强。未来可能的发展方向包括：

支持更多的HuggingFace特有功能，如模型流水线
增加对量化模型的支持以优化资源使用
提供更细粒度的性能监控指标
支持自动扩缩容策略优化

这一更新标志着KServe在支持多样化机器学习模型方面又迈出了重要一步，特别是对于自然语言处理领域的开发者来说，将大大简化HuggingFace模型的生产部署流程。

Standardized Serverless ML Inference Platform on Kubernetes

项目地址：https://gitcode.com/gh_mirrors/ks/kserve

登录后查看全文

最新内容推荐

Python Django图书借阅管理系统：高效智能的图书馆管理解决方案 Adobe Acrobat XI Pro PDF拼版插件：提升排版效率的专业利器深入解析Windows内核模式驱动管理器：系统驱动管理的终极利器 SteamVR 1.2.3 Unity插件：兼容Unity 2019及更低版本的VR开发终极解决方案 OMNeT++中文使用手册：网络仿真的终极指南与实用教程 RadiAnt DICOM Viewer 2021.2：专业医学影像阅片软件的全面指南中兴e读zedx.zed文档阅读器V4.11轻量版：专业通信设备文档阅读解决方案 PADS元器件位号居中脚本：提升PCB设计效率的自动化利器谷歌浏览器跨域插件Allow-Control-Allow-Origin：前端开发调试必备神器 IEC61850建模工具及示例资源：智能电网自动化配置的完整指南

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

ohos_react_native

React Native鸿蒙化仓库

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统