MultiQC v1.29发布：新增Parquet数据输出与多项功能优化

2025-07-03 01:24:42作者：尤辰城Agatha

MultiQC作为生物信息学分析中广泛使用的质量控制工具，其最新版本v1.29带来了一系列重要更新。本文将详细介绍这些新特性及其技术实现。

项目简介

MultiQC是一款用于整合和可视化高通量测序数据质量控制报告的工具。它能够自动识别并汇总来自多种生物信息学工具的输出结果，生成统一的HTML报告，极大简化了数据分析人员的工作流程。

核心更新：Parquet数据输出

v1.29版本最显著的改进是引入了实验性的Parquet格式数据输出功能。这一特性为数据分析带来了三个重要优势：

数据可重现性：Parquet文件保存了完整的绘图和表格数据及其元数据，使得即使没有原始数据也能重现MultiQC报告。
跨样本分析：Parquet格式便于将不同样本或模块的MultiQC运行结果进行合并分析，为大规模数据分析提供了便利。
数据库集成：这种列式存储格式特别适合时间序列分析等OLAP（在线分析处理）场景，可以高效地导入到各类分析数据库中。

技术实现上，MultiQC会在每次运行时生成multiqc_data/BETA-multiqc.parquet文件。需要注意的是，当前版本中的Parquet格式仍处于测试阶段，未来版本可能会进行调整以优化OLAP集成方案。

功能增强与改进

1. 内容呈现优化

新版本支持在自定义内容中使用Markdown语法，大大增强了报告内容的灵活性和表现力。同时，用户现在可以自定义图表副标题（如修改默认的"N samples"显示），并默认按章节名称对自定义内容进行排序。

2. AI摘要功能增强

AI摘要功能得到了多项改进：

新增对AWS Bedrock的支持
允许自定义发送给LLM的提示词
改进了从小提琴图生成摘要时的格式容错处理
为AzureAI添加了config.ai_auth_type头部配置

3. 命令行工具增强

新增multiqc --check-config命令，用于验证配置文件的有效性。同时增加了--only-samples选项，作为--ignore-samples的反向操作，提供了更灵活的样本筛选方式。

4. 图表导出优化

图表导出功能现在支持超时设置，并使用可终止的进程来处理图表导出，提高了稳定性和用户体验。

新增模块

v1.29版本引入了两个新模块：

Elembio bases2fastq：用于处理bases2fastq工具的输出
Elembio cells2stats：用于分析cells2stats工具的结果

问题修复与稳定性改进

新版本修复了多个关键问题，包括：

临时目录删除失败导致的崩溃问题
确保multiqc.log包含完整的调试日志
修复了自定义表格标题配置的设置问题
解决了时间区域本地化错误
修正了条形图CSV浏览器导出功能

模块特定更新

多个现有模块获得了功能增强：

NanoStat和samtools：支持自定义通用统计列
bcftools stats：为indel图启用对数切换
Bases2Fastq：支持单端测序数据处理
fastp：过滤结果条形图不再显示小数点
分类分析：分类图中隐藏读数的十进制显示

总结

MultiQC v1.29通过引入Parquet数据输出、增强AI摘要功能和改进现有模块，进一步巩固了其作为生物信息学质量控制标准工具的地位。这些更新不仅提高了工具的实用性和灵活性，也为未来的大数据分析场景奠定了基础。对于需要处理高通量测序数据的实验室和研究机构，升级到最新版本将获得更强大的分析能力和更稳定的使用体验。

MultiQC

Aggregate results from bioinformatics analyses across many samples into a single report.

项目地址：https://gitcode.com/gh_mirrors/mu/MultiQC

登录后查看全文