CrawlResult 是一个包含了网页爬取结果的数据结构,它整合了原始HTML内容、清理后的内容、图片视频等媒体资源、页面链接以及元数据等所有从网页中提取的信息。
数据结构(完整结构见下图)
基础信息 - url, success, status_code, error_message
内容部分 - html, cleaned_html, fit_html, markdown 等
媒体内容 - images, videos, audios
链接分析 - internal,external link
元数据 - 页面的各种元数据信息
附加数据 - screenshot, session_id 等
核心优势:
一站式数据获取
一次爬取,获得所有需要的数据
支持多种格式(HTML、Markdown)
自动整理媒体和链接
智能内容提取
自动识别和提取主要内容
智能过滤广告和无关内容
对内容和媒体进行质量打分
健壮的错误处理
清晰的成功/失败状态
详细的错误原因说明
完整的状态追踪
关键使用建议
内容优先级:
优先使用 fit_markdown/fit_html 获取核心内容
其次使用 cleaned_html 获取清理后内容
最后才考虑使用原始 html
媒体处理:
始终检查媒体文件的完整性
使用 score 过滤高质量媒体
确保媒体 URL 的可访问性
错误处理:
始终检查 success 状态
记录详细的错误信息
实现合适的降级策略
性能优化:
按需获取内容,避免不必要的处理
使用异步操作处理大量数据
实现适当的缓存机制
文档地址: