Dawarich项目导入Google Takeout大文件问题的分析与解决方案
2025-06-13 02:50:31作者:殷蕙予
问题背景
在使用Dawarich项目导入Google Takeout生成的Records.json文件时,许多用户遇到了导入失败的问题。这个问题主要出现在处理大型JSON文件时,文件大小通常在几百MB到几GB不等,包含了用户多年的位置历史数据。
问题现象
当用户尝试通过rake任务导入大文件时,系统通常会表现出以下两种行为之一:
- 进程直接被终止,显示"Killed"信息
- 系统资源被耗尽,最终导致服务器锁死
根本原因分析
经过深入分析,我们发现这个问题主要由以下几个因素导致:
- 内存限制:Ruby进程在处理大型JSON文件时需要将整个文件加载到内存中,当文件过大时会超出容器内存限制
- 处理方式:当前的导入流程没有采用流式处理,而是尝试一次性处理整个文件
- 系统资源:默认的Docker容器资源配置不足以处理如此大量的数据
解决方案
官方推荐方案
- 文件分割:将大型Records.json文件分割为100-150MB大小的多个小文件
- 直接导出:通过Android设备的Google Maps应用直接导出时间线数据,这样生成的文件通常较小
技术解决方案
对于有技术能力的用户,可以采用以下Python脚本解决方案:
import json
from datetime import datetime
def generate_sql(file_path, output_path, import_id, user_id):
now = datetime.utcnow().strftime('%Y-%m-%d %H:%M:%S.%f')[:-3]
with open(file_path, 'r') as json_file, open(output_path, 'w') as sql_file:
data = json.load(json_file)
locations = data.get('locations', [])
for location in locations:
parsed = parse_json(location)
sql = (
f"INSERT INTO public.points (latitude, longitude, timestamp, raw_data, topic, tracker_id, import_id, user_id, created_at, updated_at) "
f"VALUES ({parsed['latitude']}, {parsed['longitude']}, {parsed['timestamp']}, "
f"'{parsed['raw_data']}', 'Google Maps Timeline Export', 'google-maps-timeline-export', "
f"{import_id}, {user_id}, '{now}', '{now}');\n"
)
sql_file.write(sql)
def parse_json(entry):
timestamp_str = entry.get('timestamp') or entry.get('timestampMs', '')
if 'T' in timestamp_str:
timestamp = int(datetime.fromisoformat(timestamp_str.replace('Z', '+00:00')).timestamp())
else:
timestamp = int(timestamp_str) // 1000 if timestamp_str else 0
return {
"latitude": entry.get('latitudeE7', 0) / 10 ** 7,
"longitude": entry.get('longitudeE7', 0) / 10 ** 7,
"timestamp": timestamp,
"altitude": entry.get('altitude', 'NULL'),
"velocity": entry.get('velocity', 'NULL'),
"raw_data": json.dumps(entry).replace("'", "''")
}
input_json_path = 'Records.json'
output_sql_path = 'output.sql'
import_id = 1
user_id = 1
generate_sql(input_json_path, output_sql_path, import_id, user_id)
实施步骤
- 在Dawarich中创建一个导入记录(即使会失败)
- 记录下生成的import_id和user_id(通常首次使用时为1和1)
- 将Records.json文件与脚本放在同一目录
- 运行脚本生成SQL文件
- 修改docker-compose.yml暴露数据库端口
- 执行生成的SQL文件导入数据
性能考虑
对于包含200万条记录的文件,导入过程大约需要10-15分钟。建议在非高峰期执行此操作,以避免影响系统其他功能。
未来改进
Dawarich项目已经改进了文件导入流程,采用了更高效的处理方式,应该能够更好地处理大型文件。用户可以考虑升级到最新版本以获得更好的导入体验。
总结
处理大型位置历史数据导入是一个具有挑战性的任务,特别是在资源受限的环境中。通过文件分割或使用替代导入方法,用户可以成功地将他们的Google位置历史导入Dawarich系统。对于技术用户,直接生成SQL并导入数据库的方法提供了一个可靠的解决方案。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0207
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0133
MinerUA high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。Python08
JoyAI-EchoJoyAI-Echo,这是一个独立的、仅用于推理的版本,旨在实现分钟级多镜头音视频生成。它采用了经过蒸馏的DMD生成器、配对的跨模态记忆以及故事级别的一致性。其性能的核心在于,一个跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性。同时,一个训练后处理流程将基于记忆的强化学习与分布匹配蒸馏相结合,实现了7.5倍的速度提升,显著增强了视觉质量和对齐效果。00
wgai开箱即用的JAVAAI在线训练识别平台&OCR平台AI合集包含旦不仅限于(车牌识别、安全帽识别、抽烟识别、常用类物识别等) 图片和视频识别,可自主训练任意场景融合了AI图像识别opencv、yolo、ocr、esayAI内核识别;AI智能客服、AI语言模型、 无任何第三方API接口可定制化自主离线化部署并自主化行业化使用避免占用内存、GPU消耗训练与识别分开使用;Java05
tiny-universe《大模型白盒子构建指南》:一个全手搓的Tiny-UniverseJupyter Notebook03
项目优选
收起
deepin linux kernel
C
32
16
暂无描述
Dockerfile
772
5.05 K
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
869
1.99 K
Ascend Extension for PyTorch
Python
748
931
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
694
1.37 K
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
468
461
本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本,由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用,3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。
Dart
1.03 K
268
昇腾LLM分布式训练框架
Python
181
225
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.09 K
1.14 K
CANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。
Jupyter Notebook
363
132