探索未来数据科学的利器：Apache SystemDS

2024-08-07 09:10:32作者：沈韬淼Beryl

An open source ML system for the end-to-end data science lifecycle

项目地址：https://gitcode.com/gh_mirrors/sys/systemds

在大数据和人工智能的时代，数据科学家的需求已经超越了单一工具的能力。这就是为什么我们向您推荐Apache SystemDS——一个专为端到端数据科学生命周期设计的开源机器学习系统。它不仅涵盖了从数据预处理到模型部署的所有步骤，还为不同专业背景的用户提供了一套完整的、高效率的语言栈。

项目介绍

Apache SystemDS是一个强大的平台，旨在提供R语言风格的声明式脚本，这些脚本可以被编译成混合执行计划，既包括本地CPU和GPU的内存操作，也包括在Apache Spark上的分布式操作。其独特之处在于其DataTensor数据模型，这是一种能适应数据科学全生命周期中异构和嵌套数据结构的多维数组。

项目技术分析

SystemDS的核心技术亮点在于它的灵活性和高效性。通过支持动态编译，SystemDS能够自动生成最优执行计划，无论是运行在单机还是大规模分布式环境中。此外，DataTensor数据模型允许用户处理各种类型和形状的数据，无需手动进行格式转换，极大地提高了工作效率。

应用场景

不论是在学术研究、企业数据科学团队，还是在云计算环境中，SystemDS都能大显身手。例如，在数据集成阶段，它可以轻松处理来自多个源的复杂数据；在训练模型时，它可以利用CPU或GPU的并行计算能力加速过程；最后，对于模型部署，SystemDS提供了便捷的方式将模型转换为可服务的形式，使其能在生产环境中无缝集成。

项目特点

R-like语法：熟悉R语言的用户会感觉易于上手，同时享受高级编程语言的功能。
混合执行模式：既能本地运行，也能在Spark上分布式运行，灵活应对不同规模的任务。
DataTensor数据模型：解决了传统数据模型（如张量或二维数据集）无法处理复杂数据的问题。
自动优化：SystemDS能动态生成高效的执行计划，最大化硬件资源利用率。
全面的文档和支持：详细的文档和活跃的社区确保了用户问题能得到及时解答。

想要开始探索Apache SystemDS？只需访问Quick Start，即可安装并运行你的第一个示例。此外，丰富而详尽的文档和Python API 文档将帮助您迅速掌握这个强大工具。

Apache SystemDS是数据科学领域的一次飞跃，它致力于让数据科学家专注于解决实际问题，而不是应付工具本身的限制。加入我们，一起开启高效、灵活的数据科学之旅吧！

An open source ML system for the end-to-end data science lifecycle

项目地址：https://gitcode.com/gh_mirrors/sys/systemds

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

TorchAir 支持用户基于PyTorch框架和torch_npu插件在昇腾NPU上使用图模式进行推理。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。