跳到主要内容

格式

'tags' => [
[
'name' => '正文',
'xpath' => '//div[@id="content"]',
'type' => 'html',
'field' => 'content',
'handle' => [],
],
],

name(标签名)

只是为了提供一个标签的中文名,顺便以此区分每个标签,方便调试的时候查看,所以标签名是随意取的,但是为了更加同统一,部分标签名做了统一,这个在「约定」章节有说了。

xpath

除了 xpath 外,还有其他两种提取标签的方法:

  1. xpath
  2. preg
  3. func

xpath

preg

func

笔者自己封装的函数,比如获取网页的 keywords 和 description。

'tags' => [
[
'name' => '关键词',
'func' => 'keywords',
'field' => 'keywords',
],
[
'name' => '描述',
'func' => 'description',
'field' => 'description',
],
],

field

发布内容时的参数名。

handle

具体见「数据加工」