Argilla项目新增模型查询方法get_by与get_by_or_raise的技术解析

2025-06-13 19:09:58作者：虞亚竹Luna

在数据标注和机器学习模型管理领域，高效精准的数据检索能力是系统设计的核心需求。近期Argilla项目在其模型层实现了两个重要的查询方法增强——get_by和get_by_or_raise，这为开发者提供了更灵活、更安全的数据库查询方式。本文将从技术实现角度深入解析这两个方法的特性与应用场景。

方法设计背景

传统ORM查询中，开发者经常需要处理"存在性检查"和"异常处理"的模板代码。Argilla新增的这两个类方法通过封装常见查询模式，显著提升了代码的简洁性和可维护性。

方法功能详解

get_by方法

作为基础查询方法，get_by接收键值对参数进行条件过滤，返回匹配的第一个结果。当无匹配项时，该方法优雅地返回None而非抛出异常，适用于非关键路径的查询场景。

技术特点：

采用**kwargs接收动态查询条件
自动构建SQLAlchemy过滤条件
使用first()方法限制结果集

典型使用场景：

user = User.get_by(username="admin")
if user:
    # 执行存在时的逻辑

get_by_or_raise方法

作为get_by的安全增强版本，该方法在查询无果时会主动抛出预定义的异常（默认HTTP 404）。这种设计遵循了"快速失败"原则，特别适合REST API中的资源查找场景。

技术亮点：

继承自get_by的基础查询逻辑
集成异常处理机制
支持自定义异常类型和错误信息

典型应用：

try:
    dataset = Dataset.get_by_or_raise(name="demo", exception=HTTPException)
except HTTPException:
    # 处理资源不存在的情况

实现原理剖析

在SQLAlchemy模型基础上，这两个方法通过类方法装饰器实现。核心是通过session.query()构建查询，其中：

条件构建阶段：将输入的kwargs转换为SQLAlchemy过滤条件表达式
查询执行阶段：使用first()获取单条结果
结果处理阶段：根据方法类型决定返回策略

异常处理采用Python的raise...from语法保持异常链完整，便于调试时追踪问题根源。

最佳实践建议

在服务层使用get_by_or_raise确保数据一致性
在批量处理场景使用get_by避免异常中断
对高频查询字段建议添加数据库索引
复杂查询仍建议使用原生SQLAlchemy查询构建器

性能考量

这两个方法在内部都使用了limit 1优化，确保数据库只需扫描至多一条记录。但开发者仍需注意：

避免在未索引字段上频繁查询
大数据表查询建议结合分页机制
可考虑添加query_cache装饰器提升重复查询性能

总结

Argilla这次的方法增强体现了实用主义的设计哲学，通过简单的API抽象解决了常见的查询模式需求。这种设计既保持了SQLAlchemy的灵活性，又通过合理的默认行为降低了开发者的认知负荷，是ORM层方法设计的优秀实践。对于需要快速构建可靠数据访问层的项目，这两个方法提供了即插即用的解决方案。

argilla

Argilla is a collaboration tool for AI engineers and domain experts to build high-quality datasets

项目地址：https://gitcode.com/GitHub_Trending/ar/argilla

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。