mirror of
https://devops.liangqichi.top/qichi.liang/Orbitin.git
synced 2026-02-10 07:41:29 +08:00
3.3 KiB
3.3 KiB
AGENTS.md
This file provides guidance to agents when working with code in this repository.
项目概述
Python 工具,用于从 Confluence API 获取 HTML 并提取保留布局的文本。
项目结构
OrbitIn/
├── main.py # CLI 入口
├── .env # 环境配置(敏感信息)
├── .env.example # 环境配置示例
├── README.md # 项目说明
├── AGENTS.md # AI助手文档
├── layout_output.txt # 缓存的布局文本
├── debug/ # 调试输出目录
│ └── layout_output_*.txt # 带时间戳的调试文件
├── data/ # 数据目录
│ └── daily_logs.db # SQLite3 数据库
└── src/ # 代码模块
├── __init__.py
├── confluence.py # Confluence API 客户端
├── extractor.py # HTML 文本提取器
├── parser.py # 日志解析器
├── database.py # SQLite3 数据库操作
└── report.py # 日报生成器
核心模块
ConfluenceClient
fetch_content(content_id, expand)- 获取页面内容get_html(content_id)- 获取 HTML 字符串
HTMLTextExtractor
extract(html)- 从 HTML 提取保留布局的文本- 使用
html.parser(非 lxml) - 移除带
ac:name属性的 Confluence 宏元素 - 表格格式化使用
ljust()列对齐
HandoverLogParser
parse(text)- 解析日志文本,返回ShipLog列表ShipLog数据类:date, shift, ship_name, teu, efficiency, vehicles
DailyLogsDatabase
insert(log)- 插入单条记录insert_many(logs)- 批量插入query_by_date(date)- 按日期查询query_by_ship(ship_name)- 按船名查询query_all(limit)- 查询所有get_stats()- 获取统计信息insert_unaccounted(year_month, teu, note)- 添加未统计数据get_unaccounted(year_month)- 获取未统计数据
DailyReportGenerator
generate_report(date)- 生成日报print_report(date)- 打印日报
文本格式约定
- 列表前缀:
•用于ul,数字+点用于ol - 粗体使用
**text**,斜体使用*text* - 水平线使用
─(U+2500) 字符 - 链接渲染为
text (url)
命令
# 默认:获取、提取、解析并保存到数据库
python3 main.py
# 仅获取HTML并提取文本(保存到debug目录)
python3 main.py fetch
# 获取并保存带时间戳的debug文件
python3 main.py fetch-debug
# 生成日报
python3 main.py report 2025-12-28
# 解析测试
python3 main.py parse-test
# 添加未统计数据
python3 main.py --unaccounted 118 --month 2025-12
配置
在 .env 文件中配置 Confluence 连接信息:
CONFLUENCE_BASE_URL=https://confluence.westwell-lab.com/rest/api
CONFLUENCE_TOKEN=your-api-token
CONFLUENCE_CONTENT_ID=155764524
测试模式
如果设置了环境变量 DEBUG_MODE=true,系统会使用本地 layout_output.txt 文件而不是从 Confluence API 获取数据,方便离线测试。