AIHawk自动求职应用中的JSON数据重复问题分析与解决方案

2025-05-06 19:24:00作者：姚月梅Lane

AIHawk aims to easy job hunt process by automating the job application process. Utilizing artificial intelligence, it enables users to apply for multiple jobs in a tailored way.

项目地址：https://gitcode.com/GitHub_Trending/jo/Jobs_Applier_AI_Agent_AIHawk

在开源项目AIHawk自动求职应用系统中，开发人员发现了一个关于问答数据存储的重要技术问题。该系统在运行过程中会将求职过程中遇到的面试问题和回答保存到answers.json文件中，但当前实现存在重复存储相同问答对的缺陷。

问题本质

当系统多次遇到相同的面试问题时，即使该问题已经存在于answers.json文件中，系统仍然会重复记录相同的问答对。这种重复存储不仅浪费存储空间，更重要的是可能导致后续处理逻辑出现混乱，影响系统的稳定性和可靠性。

技术背景

AIHawk系统在处理求职申请时，会与招聘网站进行交互，自动回答各种预设问题。系统设计了一个智能机制来记录这些问答历史，目的是为了建立知识库，提高未来处理相似问题的效率。answers.json文件就是这个知识库的存储载体。

问题根源分析

通过代码审查发现，问题出在aihawk_easy_applier.py文件的第714-716行。当前实现中，系统在保存新问答对时没有先检查该问题是否已经存在于文件中。具体表现为：

系统会先检索现有答案(existing_answer)
但在保存新记录时，没有利用这个检索结果进行重复检查
导致无论问题是否已存在，都会无条件地写入新记录

解决方案比较

开发团队提出了两种可能的解决方案：

前置检查方案：在调用_save_questions_to_json方法前，先检查existing_answer是否存在。如果已存在答案，则跳过保存步骤。

优点：效率高，避免不必要的文件I/O操作

缺点：需要在多个调用点都进行相同检查
方法内检查方案：修改_save_questions_to_json方法内部实现，使其自动检查并避免重复。

优点：封装性好，调用方无需关心重复问题

缺点：每次调用都会有额外的检查开销

经过权衡，项目采用了第一种方案，因为：

系统已经检索过existing_answer，这个信息可以直接利用
避免了重复的文件读取操作
更符合当前代码逻辑的流程

实现细节

最终解决方案是在保存前添加条件判断：

if not existing_answer and not is_cover_letter:
    self._save_questions_to_json({'type': question_type, 'question': question_text, 'answer': answer})

这个修改确保了：