跳到主要内容

说明

重要

目前

  1. 只适用于 帝国 CMS,且 帝国 CMS 支持通过 url 远程提交文章。
  2. 只能单纯写配置在 PHP 文件中,并通过命令执行。暂时没有 Web UI 界面。

为什么写这个

  • 因笔者工作要求,需要把火车头采集器改为 PHP 执行。后面重复的代码写多了就打算规范下代码,于是就写了这个文档。
  • 采集 N 个网站,原本是写 N 个 PHP 文件,但本着 DRY(不要重复你自己),还是多花点时间搞解耦(一个脚本文件,多个配置文件)吧!

需求

软件

  • PHP 8.0 以上
  • symfony/dom-crawler

知识

  • Xpath

功能

  1. 数据加工
  2. 不同服务器部署
    1. 帝国 CMS 站点同服务器:图片直接下载到 帝国 CMS 的目录。
    2. 部署在其他台服务器,通过 FTP 传送图片到 帝国 CMS 的目录。

代办事项

  • 使用 call_user_func 优化代码
  • 失败后,加入队列
  • Web UI 界面
  • 比较完善的 php artisan 命令向导
  • 编写单元测试
  • 良好的日志记录