北京展览爬取系统修复 - 2026-03-06
✅ P0 任务完成(11:50)
问题回顾:
- 脚本有 bug(log_message 函数未定义就调用)
- 执行后没有消息通知
- 飞书文档未更新
- 没有复用昨天成功经验
已完成:
- ✅ 补写 2026-03-05 记忆日志
- ✅ 修复 crawler.py bug(log_message 移到文件开头)
- ✅ 创建并更新今日飞书文档:https://feishu.cn/docx/IIpVd0zDZoJgSSxPdsXc0DzHneh(543 区块)
- ✅ 更新 task.md
⚠️ 再次犯错:
- 创建了飞书文档但没有推送内容(只有标题)
- 用户指出后才检查并修复
- 违反"端到端验收"原则(第二次)
✅ P1 任务完成(12:00)
已完成:
- ✅ 集成飞书同步到 daily_cron.sh
- 修改脚本,添加 feishu_sync.py 调用
- 成功/失败都有相应处理
- ✅ 添加执行成功/失败消息通知
- 创建 notification.py
- 成功消息:包含展览数量、重点推荐、文档链接
- 失败告警:包含错误信息、排查建议
- ✅ 创建 Exhibition Crawler Skill
- 位置:~/.openclaw/skills/exhibition-crawler/SKILL.md
- 内容:10 个数据源技术方案、配置说明、常见问题、核心教训
- 版本:v1.3
测试结果:
- feishu_sync.py 测试成功 ✅
- notification.py 测试成功 ✅
- daily_cron.sh 已更新 ✅
📋 技术方案总结
数据源:10 个(7 个官方 +3 个民间) 技术方案:
- 动态网站(故宫/小红书)→ Playwright
- 静态网站(豆瓣/美术馆)→ web_fetch + Jina
- 官方汇总(北京市文物局)→ 最佳方案
核心教训:
- 部署前必须测试
- 集成消息通知
- 端到端验收(飞书文档更新成功才算完成)
- 固化成功经验(创建 Skill)
🧠 三层记忆法则应用(2026-03-06 学习)
第 1 层 预防(写入时)
- ✅ 已写入 MEMORY.md:北京展览爬取系统技术方案
- ✅ 已写入 MEMORY.md:端到端验收原则(血泪教训)
- ✅ 已写入 memory/2026-03-06.md:今日修复详情
- ✅ 已配置定时任务:每日 0:00 创建记忆,23:00 添加总结
第 2 层 侦测(恢复时)
- ✅ Session 开始前读取 MEMORY.md
- ✅ Session 开始前读取 memory/2026-03-05.md(昨天)
- ✅ Session 开始前读取 memory/2026-03-06.md(今天)
- ✅ 已创建 memory_session_start.sh 脚本
第 3 层 兜底(执行时)
- ✅ 创建飞书文档后读取验证内容非空
- ✅ 部署脚本前手动执行一次测试
- ✅ 发送通知前确认文档链接正确
- ✅ daily_cron.sh 已集成记忆写入
📝 已完成的记忆写入
| 记忆类型 | 文件 | 内容 | 状态 |
|---|---|---|---|
| 长期记忆 | MEMORY.md | 北京展览爬取系统技术方案 | ✅ 完成 |
| 长期记忆 | MEMORY.md | 端到端验收原则(血泪教训) | ✅ 完成 |
| 短期记忆 | memory/2026-03-05.md | 昨日任务完成记录 | ✅ 完成 |
| 今日记忆 | memory/2026-03-06.md | 今日修复详情 + 三层记忆法则 | ✅ 完成 |
| Skill 固化 | ~/.openclaw/skills/exhibition-crawler/SKILL.md | 完整技术方案 | ✅ 完成 |
创建时间:2026-03-06 12:00 最后更新:2026-03-06 12:05(补充三层记忆法则) 维护者:Travel Agent
✅ 山东调研任务完成(16:10)
工作内容:
- 确定本地文件位置:
/root/.openclaw/workspace/travel/wiki/山东.md - 创建国保单位开放情况核实方案:
山东/国保单位开放情况.md - 更新山东总览页(添加专题调研表格、更新调研进度)
- 更新省份排行榜(山东状态:🔄 国保核实中)
调研结果:
- 国保单位总数:250 处(全国第 8)
- 已核实开放:29 处(11.6%)
- 世界遗产:4 处(泰山、三孔)
- 5A 景区:7 处
- 著名景区:18 处
- 待核实:221 处
下一步:
- 继续核实剩余 221 处国保单位开放情况
- 按城市/类型批量核实
- 参考山西经验,优先核实古建筑类
⚠️ 工具优先级调整(16:18 最终版)⭐
核心原则:
- 所有网站 → ⭐⭐⭐⭐⭐ Playwright(统一工具,稳定可靠)
- 小红书 → ⭐⭐⭐⭐⭐ 小红书 MCP 专用工具(官方 API)
- web_fetch → ⭐ 仅作为备选(Playwright 不可用时)
- ❌ 禁止:优先使用 web_fetch 爬任何网站
已更新:
- ✅ SOUL.md 更新"工具选择原则"
- ✅ exhibition-crawler/SKILL.md 更新工具优先级表格
- ✅ 本记忆文件记录最终版原则
教训:
- 之前错误:根据不同网站类型选择不同工具
- 正确做法:统一使用 Playwright,避免 web_fetch 的 DNS 问题