Heritrix3 3.7.0版本发布:网络爬虫工具的重大更新
项目简介
Heritrix3是一个开源的、可扩展的网络爬虫框架,由Internet Archive主导开发。作为专业级的网络爬取工具,它被广泛应用于互联网存档、数据采集和数字保存等领域。Heritrix3以其高度可配置性、稳定性和对大规模爬取任务的支持而闻名,是许多机构进行网络存档工作的首选工具。
3.7.0版本核心更新
1. Groovy爬取配置支持(实验性功能)
本次更新引入了Groovy Bean Definition DSL作为Spring XML配置的替代方案,这是一个重要的技术演进。这项实验性功能允许开发者使用Groovy语言来编写更简洁、更易读的爬取任务配置,并支持内联脚本功能。
技术意义:
- 配置更加简洁:相比传统的XML配置,Groovy DSL可以显著减少配置文件的体积
- 增强灵活性:支持内联脚本意味着可以在配置中直接实现简单的逻辑处理
- 提升可读性:Groovy语法更接近自然语言,便于维护和理解
目前这一功能尚未集成到用户界面中,需要手动在作业目录中创建crawler-beans.groovy文件来使用。
2. HTML提取器新增obeyRelNofollow选项
这个新增加的选项允许爬虫跳过标记有rel=nofollow的链接,这是一个实用的反爬虫陷阱功能。
技术背景:
- rel=nofollow是HTML中的一种属性,通常用于告诉搜索引擎不要追踪特定链接
- 某些网站会滥用这一机制设置爬虫陷阱
- 启用此选项后,爬虫将自动忽略这些链接,提高爬取效率
3. 修复Cookie拒绝警告问题
在3.6.0版本中,由于slf4j的变更,导致当服务器发送带有不允许域值的Set-Cookie头时,会向job.log记录不必要的警告信息。这个版本修复了这一问题,避免了日志污染。
技术影响:
- 减少日志噪音,提高日志可读性
- 避免管理员被大量无害警告干扰
- 保持系统监控的准确性
技术优化
1. 移除fastutil依赖
本次更新移除了对fastutil库的少量使用,改用标准库实现,这一变化带来了显著的效果:
- 发行包大小从51MB减少到34MB,减少了约33%
- 降低依赖复杂度
- 提高系统稳定性
2. 依赖项升级
3.7.0版本对多个关键依赖进行了升级,包括:
- Jetty升级到9.4.57.v20241219
- Spring框架升级到6.1.16
- webarchive-commons升级到1.3.0
- 其他多项安全性和性能更新
这些升级带来了更好的性能、安全性和兼容性。
技术价值分析
Heritrix3 3.7.0版本的发布体现了项目团队对以下几个技术方向的关注:
-
配置简化:通过引入Groovy DSL,降低了配置复杂度,这是对开发者体验的重要改进。
-
爬取效率:obeyRelNofollow选项的加入直接针对实际爬取过程中的痛点,提高了爬虫的工作效率。
-
系统优化:通过依赖精简和升级,使系统更加轻量化和现代化。
-
稳定性提升:修复日志警告等问题,提高了系统的运行稳定性。
对于需要进行大规模网络爬取的专业用户来说,3.7.0版本提供了更强大、更灵活的工具集,特别是在处理复杂网站结构和避免爬虫陷阱方面有了明显改进。Groovy配置的支持也为高级用户提供了更大的灵活性和控制力。
总结
Heritrix3 3.7.0版本是一次重要的迭代更新,在保持系统稳定性的同时,引入了多项实用新功能和优化。特别是Groovy配置支持和nofollow处理能力的增强,使得这个专业的网络爬虫工具更加易用和强大。对于依赖Heritrix3进行网络存档和数据采集的机构和个人来说,升级到这个版本将获得更好的使用体验和工作效率。
PaddleOCR-VLPaddleOCR-VL 是一款顶尖且资源高效的文档解析专用模型。其核心组件为 PaddleOCR-VL-0.9B,这是一款精简却功能强大的视觉语言模型(VLM)。该模型融合了 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,可实现精准的元素识别。Python00- DDeepSeek-OCR暂无简介Python00
openPangu-Ultra-MoE-718B-V1.1昇腾原生的开源盘古 Ultra-MoE-718B-V1.1 语言模型Python00
HunyuanWorld-Mirror混元3D世界重建模型,支持多模态先验注入和多任务统一输出Python00
AI内容魔方AI内容专区,汇集全球AI开源项目,集结模块、可组合的内容,致力于分享、交流。03
Spark-Scilit-X1-13BFLYTEK Spark Scilit-X1-13B is based on the latest generation of iFLYTEK Foundation Model, and has been trained on multiple core tasks derived from scientific literature. As a large language model tailored for academic research scenarios, it has shown excellent performance in Paper Assisted Reading, Academic Translation, English Polishing, and Review Generation, aiming to provide efficient and accurate intelligent assistance for researchers, faculty members, and students.Python00
GOT-OCR-2.0-hf阶跃星辰StepFun推出的GOT-OCR-2.0-hf是一款强大的多语言OCR开源模型,支持从普通文档到复杂场景的文字识别。它能精准处理表格、图表、数学公式、几何图形甚至乐谱等特殊内容,输出结果可通过第三方工具渲染成多种格式。模型支持1024×1024高分辨率输入,具备多页批量处理、动态分块识别和交互式区域选择等创新功能,用户可通过坐标或颜色指定识别区域。基于Apache 2.0协议开源,提供Hugging Face演示和完整代码,适用于学术研究到工业应用的广泛场景,为OCR领域带来突破性解决方案。00- HHowToCook程序员在家做饭方法指南。Programmer's guide about how to cook at home (Chinese only).Dockerfile013
Spark-Chemistry-X1-13B科大讯飞星火化学-X1-13B (iFLYTEK Spark Chemistry-X1-13B) 是一款专为化学领域优化的大语言模型。它由星火-X1 (Spark-X1) 基础模型微调而来,在化学知识问答、分子性质预测、化学名称转换和科学推理方面展现出强大的能力,同时保持了强大的通用语言理解与生成能力。Python00- PpathwayPathway is an open framework for high-throughput and low-latency real-time data processing.Python00