Learnware-LAMDA项目中的Learnware搜索机制详解

2025-06-19 19:51:42作者：侯霆垣

引言

在机器学习领域，Learnware-LAMDA项目提出了一种创新的模型共享与复用框架。其中，Learnware搜索机制是整个系统的核心功能之一，它能够根据用户需求智能地推荐合适的预训练模型（即learnware）。本文将深入解析Learnware搜索的工作原理、实现方式以及具体应用方法。

Learnware搜索概述

Learnware搜索器是Learnware市场中的关键模块，它根据用户提供的信息识别并推荐有用的learnware。Learnware-LAMDA项目目前提供两种类型的搜索器：

同构搜索器：在用户任务相同的特征空间内进行learnware识别
异构搜索器：初步支持表格任务的跨特征空间learnware识别

所有搜索器都是BaseSearcher的子类实现，初始化时需要指定一个组织器(organizer)。搜索器通过BaseUserInfo接收用户信息，并返回包含识别结果的SearchResults。

同构搜索详解

同构搜索过程可分为两个阶段：语义规范搜索和统计规范搜索。

使用示例

以下代码展示了如何使用搜索器从easy_market市场中为用户搜索有用的learnware：

from learnware.market import BaseUserInfo, instantiate_learnware_market
from learnware.specification import generate_semantic_spec, generate_stat_spec

# 初始化市场
easy_market = instantiate_learnware_market(market_id="demo", name="easy", rebuild=True)

# 生成用户信息
user_semantic = generate_semantic_spec(
    task_type="Classification",
    scenarios=["Business"],
)
rkme_table = generate_stat_spec(type="table", X=train_x)
user_info = BaseUserInfo(
    semantic_spec=user_semantic, 
    stat_info={rkme_table.type: rkme_table}
)

# 执行搜索
search_result = easy_market.search_learnware(user_info)

搜索结果结构

搜索结果是一个字典类型，结构如下：

{
    "single": {  # 单个learnware搜索结果
        "learnware_ids": List[str],          # learnware ID列表
        "semantic_specifications": List[dict],  # 语义规范列表
        "matching": List[float],            # 匹配度列表
    },
    "multiple": {  # 多个learnware组合搜索结果
        "learnware_ids": List[str],         # learnware ID列表
        "semantic_specifications": List[dict],  # 语义规范列表
        "matching": float,                  # 组合匹配度
    }
}

异构搜索详解

对于表格任务，当没有learnware与用户任务共享相同特征空间时，同构搜索器可能无法推荐任何结果。Learnware-LAMDA项目通过异构搜索器初步支持了跨特征空间的learnware搜索。

异构搜索原理

规范统一：异构市场(如Hetero Market)通过为learnware生成新的系统规范，将不同的表格规范"孤岛"整合成一个统一的"规范世界"
用户规范映射：基于用户的统计规范，搜索器会为其分配新的规范(使用组织器的特定方法)
跨空间搜索：搜索器在统一的"规范世界"中基于用户的新规范进行统计规范搜索，返回潜在的异构learnware

使用要求

要启用异构learnware搜索，UserInfo需要满足以下条件：

必须包含语义和统计两种规范
语义规范要求：
- 任务类型为Classification或Regression
- 数据类型为Table
- 至少包含一个特征维度的描述
- 特征维度必须与统计规范中的一致

使用示例

# 初始化异构市场
hetero_market = initiate_learnware_market(market_id="demo", name="hetero", rebuild=True)

# 准备用户语义规范(需满足上述要求)
input_description = {
    "Dimension": 2,
    "Description": {
        "0": "leaf width",  # 叶宽
        "1": "leaf length",  # 叶长
    },
}
user_semantic = generate_semantic_spec(
    data_type="table",
    task_type="Classification",
    scenarios=["Business"],
    input_description=input_description,
)

# 生成统计规范
user_spec = generate_stat_spec(type="table", X=train_x)

# 构建用户信息
user_info = BaseUserInfo(
    semantic_spec=user_semantic,
    stat_info={user_spec.type: user_spec}
)

# 执行异构搜索
search_result = hetero_market.search_learnware(user_info)