格式
'tags' => [
[
'name' => '正文',
'xpath' => '//div[@id="content"]',
'type' => 'html',
'field' => 'content',
'handle' => [],
],
],
name(标签名)
只是为了提供一个标签的中文名,顺便以此区分每个标签,方便调试的时候查看,所以标签名是随意取的,但是为了更加同统一,部分标签名做了统一,这个在「约定」章节有说了。
xpath
除了 xpath 外,还有其他两种提取标签的方法:
- xpath
- preg
- func
xpath
preg
func
笔者自己封装的函数,比如获取网页的 keywords 和 description。
'tags' => [
[
'name' => '关键词',
'func' => 'keywords',
'field' => 'keywords',
],
[
'name' => '描述',
'func' => 'description',
'field' => 'description',
],
],
field
发布内容时的参数名。
handle
具体见「数据加工」