LiquidCache 使用教程
2025-04-20 21:01:24作者:秋阔奎Evelyn
1. 项目介绍
LiquidCache 是一个为 DataFusion 系统设计的 S3 缓存解决方案。它通过一个优化器规则,能够将成本和延迟降低高达 10 倍。LiquidCache 不是透明的缓存(可以考虑使用 Foyer),它利用查询语义来优化缓存。LiquidCache 将 S3 数据(如 JSON、CSV、Parquet)转码为内部格式,这种格式更加压缩,更适合 NVMe 存储,且对 DataFusion 操作更高效。
2. 项目快速启动
以下是快速启动 LiquidCache 的步骤:
首先,确保你已经安装了 Rust 编译环境和 Cargo 包管理工具。
启动 Cache Server
#[tokio::main]
async fn main() -> Result<(), Box<dyn std::error::Error>> {
let liquid_cache = LiquidCacheService::new(
SessionContext::new(),
Some(1024 * 1024 * 1024), // 最大内存缓存大小 1GB
Some(tempfile::tempdir()?),
// 磁盘缓存目录
);
let flight = FlightServiceServer::new(liquid_cache);
Server::builder()
.add_service(flight)
.serve("0.0.0.0:50051".parse()?)
.await?
;
Ok(())
}
或者,你可以使用预构建的 Docker 镜像:
docker run -p 50051:50051 -v ~/liquid_cache:/cache \
ghcr.io/xiangpenghao/liquid-cache/liquid-cache-server:latest \
/app/bench_server --address 0.0.0.0:50051 --disk-cache-dir /cache
连接到缓存服务器
在你的 DataFusion 项目中添加以下依赖:
[dependencies]
liquid-cache-client = "0.1.0"
然后,创建一个新的 DataFusion 上下文,并连接到 LiquidCache:
#[tokio::main]
pub async fn main() -> Result<(), Box<dyn std::error::Error>> {
/*==========================LiquidCache============================*/
let ctx = LiquidCacheBuilder::new(cache_server)
.with_object_store(ObjectStoreUrl::parse(object_store_url.as_str())?, None)
.with_cache_mode(CacheMode::Liquid)
.build(SessionConfig::from_env()?);
/*=================================================================*/
let ctx: Arc<SessionContext> = Arc::new(ctx);
ctx.register_table(table_name, ..).await?;
ctx.sql(&sql).await?.show().await?;
Ok(())
}
3. 应用案例和最佳实践
社区服务器
LiquidCache 在 Xiangpeng 的 NAS 上运行了一个社区服务器,地址为 https://hex.tail0766e4.ts.net:50051(使用风险自负)。你可以通过运行以下命令来尝试它:
cargo run --bin example_client --release -- \
--cache-server https://hex.tail0766e4.ts.net:50051 \
--file "https://huggingface.co/datasets/HuggingFaceFW/fineweb/resolve/main/data/CC-MAIN-2024-51/000_00042.parquet" \
--query "SELECT COUNT(*) FROM \"000_00042\" WHERE \"token_count\" < 100"
运行 ClickBench
-
设置仓库
git clone https://github.com/XiangpengHao/liquid-cache.git cd liquid-cache -
运行 LiquidCache 服务器
cargo run --bin bench_server --release -
在另一个终端运行 ClickBench 客户端
cargo run --bin clickbench_client --release -- --query-path benchmark/clickbench/queries.sql --file examples/nano_hits.parquet注意:替换
nano_hits.parquet为实际的 ClickBench 数据集以进行完整的基准测试。
4. 典型生态项目
目前,LiquidCache 主要与 DataFusion 配合使用,但也可以与其他数据分析和查询引擎集成。它的开源性质鼓励社区贡献和扩展,以支持更多的项目和用例。
登录后查看全文
热门项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0191
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0118
Step-3.7-FlashStep-3.7-Flash是一个拥有 1980 亿参数的稀疏混合专家(MoE)视觉语言模型,由 1960 亿参数的语言主干网络和 18 亿参数的视觉编码器组合而成,具备原生图像理解能力。Python00
JoyAI-EchoJoyAI-Echo,这是一个独立的、仅用于推理的版本,旨在实现分钟级多镜头音视频生成。它采用了经过蒸馏的DMD生成器、配对的跨模态记忆以及故事级别的一致性。其性能的核心在于,一个跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性。同时,一个训练后处理流程将基于记忆的强化学习与分布匹配蒸馏相结合,实现了7.5倍的速度提升,显著增强了视觉质量和对齐效果。00
fun-rec推荐系统入门教程,在线阅读地址:https://datawhalechina.github.io/fun-rec/Python03
so-large-lm大模型基础: 一文了解大模型基础知识01
热门内容推荐
最新内容推荐
项目优选
收起
暂无描述
Dockerfile
764
4.98 K
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
857
1.93 K
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
684
1.33 K
Ascend Extension for PyTorch
Python
719
882
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.08 K
1.1 K
deepin linux kernel
C
32
16
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
457
439
用户可使用该项目在 OpenHarmony 平台开发应用,支持通过 IDE 或终端用 Flutter Tools 指令编译构建,基于 Flutter 3.27.4 版本,新增 impeller-vulkan 渲染模式,兼容多种开发指令与环境配置。
Dart
1.01 K
261
华为昇腾面向大规模分布式训练的多模态大模型套件,支撑多模态生成、多模态理解。
Python
151
253
CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。
Python
998
609