格式
'tags' => [
    [
        'name' => '正文',
        'xpath' => '//div[@id="content"]',
        'type' => 'html',
        'field' => 'content',
        'handle' => [],
    ],
],
name(标签名)
只是为了提供一个标签的中文名,顺便以此区分每个标签,方便调试的时候查看,所以标签名是随意取的,但是为了更加同统一,部分标签名做了统一,这个在「约定」章节有说了。
xpath
除了 xpath 外,还有其他两种提取标签的方法:
- xpath
- preg
- func
xpath
preg
func
笔者自己封装的函数,比如获取网页的 keywords 和 description。
'tags' => [
    [
        'name' => '关键词',
        'func' => 'keywords',
        'field' => 'keywords',
    ],
    [
        'name' => '描述',
        'func' => 'description',
        'field' => 'description',
    ],
],
field
发布内容时的参数名。
handle
具体见「数据加工」