dede自动采集功能研究

作者:enenba | 发表于:2014-09-29 10:40 | 分类:php源码

首先分析一下,采集过程主要包括:

1.采集文档

2.生成文档

3.更新页面

三部分

由于这三部分都可以用dede后台完成,所以肯定有对应的函数可以调用。现在目标就是将这些函数找出来,然后自己写一个func把所有流程整理出来,让php实现自动采集

现在以5.6为例.打开后台页面,采集节点管理,找到真正的页面地址:

dede/co_main.php

然后将鼠标移动到“采集"按钮上,可以看到指向js 函数

Gather...

阅读全文>>

1人成功匹配 1657人撸过

想写个泛采集的emlog插件

作者:enenba | 发表于:2012-11-07 21:50 | 分类:php采集

这几天看了织梦采集侠,其采集主要的有个采集类,输出源件中的 base64 加密部分就看到那个CaiJiXia类了。

织梦采集侠源码中有很多方法,没有注释的,而且方法名都是两个字母的大写,比较难看懂。

既然有织梦采集侠,读懂其原理,写个emlog插件来试试。

阅读全文>>

9人成功匹配 2830人撸过

织梦采集侠获取文章标题原理,附上php源码

作者:enenba | 发表于:2012-08-02 17:28 | 分类:php采集
我这几天看了下织梦采集侠的源码,发现有很多成熟的技术,比如这个采集网站文章的题目,源码一会再上,先做简单解释:
首先,很多人会一直会认为这不是很简单,就是<title>标签中的内容嘛,不是很容易获取吗?其实不然,很多的title部分不一定放文章的题目,很多的网站还加入了关键字,而且一定加入网站名。

阅读全文>>

2人成功匹配 4772人撸过

发现有人开始采集我的站了

作者:enenba | 发表于:2012-07-31 11:49 | 分类:emlog

enenba blog已经一个星期没有更新内容了,实在没有原创的内容更新,最近比较忙,公司很多事都是拖到月底才忙乎。

今天偶然发现网上已经出现了我博的原创内容,只不过是把版权去掉了而已,有些图片还PS了版权。

不过顺着我发布的内容去找了别的网站,也发现了一些相关有用的东西。有时间我也去采集内容。

本博客对seo不敏感,不使用采集软件更新内容,只上demo测试页。

本博内容大部分原创,源码开放,只供研究使用...

阅读全文>>

0人成功匹配 1785人撸过