Nitric项目：支持长时间运行作业与GPU工作负载的技术演进

2025-07-09 15:32:53作者：温玫谨Lighthearted

Nitric is a multi-language framework for cloud applications with infrastructure from code.

项目地址：https://gitcode.com/gh_mirrors/ni/nitric

背景与需求

在当前的云计算环境中，serverless计算服务因其弹性伸缩和按需付费的特性而广受欢迎。然而，现有的serverless解决方案普遍存在两大限制：执行时间上限和硬件资源约束。以主流云平台为例，AWS Lambda仅支持15分钟的执行时长，Google Cloud Run提供60分钟，而Azure Container Apps对HTTP入口请求更是限制在4分钟。

这些限制使得Nitric项目在处理高性能计算(HPC)、大数据分析和机器学习等场景时面临挑战。具体表现在：

无法完成耗时较长的ETL数据处理流程
大数据分析作业可能因超时中断
机器学习模型训练和微调过程需要GPU支持
需要数小时甚至数天才能完成的批处理任务

技术挑战与解决方案

现有架构的局限性

传统serverless架构设计初衷是处理短时、无状态的请求，其核心设计理念是通过水平扩展而非垂直扩展来应对负载变化。这种设计带来了三个主要限制：

时间限制：强制终止长时间运行的任务
资源限制：CPU和内存配置上限较低
硬件限制：缺乏对GPU等专用计算硬件的支持

新型计算架构设计

Nitric项目提出的解决方案是构建一个混合型serverless计算平台，整合两类计算资源：

传统serverless资源：处理短时、高并发的请求
高性能计算资源：专门用于长时间运行和GPU加速的工作负载

关键技术实现包括：

任务分片与检查点：将大任务分解为可恢复的子任务
智能调度系统：根据任务特性自动选择执行环境
资源自动伸缩：在CPU/GPU资源间动态调配
成本优化引擎：平衡执行速度与计算成本

应用场景与价值

这一技术演进将显著扩展Nitric项目的应用边界：

大数据处理领域

完整的数据管道执行不再受时间限制
支持TB级数据的批处理作业
复杂的数据转换和聚合操作

机器学习领域

端到端的模型训练流程
支持分布式训练框架
自动化的超参数调优

科学计算领域

分子动力学模拟
气候建模与分析
基因组学研究

实施路线图

技术团队计划分三个阶段实现这一目标：

基础架构扩展：集成云厂商的HPC服务
智能调度层：开发任务路由和资源分配算法
开发者体验优化：简化GPU工作负载的部署流程

这一演进将使Nitric项目成为首个同时支持传统serverless和高性能计算场景的开源serverless框架，为开发者提供更全面的云计算解决方案。

Nitric is a multi-language framework for cloud applications with infrastructure from code.

项目地址：https://gitcode.com/gh_mirrors/ni/nitric

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

ohos_react_native

React Native鸿蒙化仓库

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统