找回密码
 加入
搜索
查看: 2480|回复: 5

[网络通信] [多谢两位已解决]请教一个奇怪的正则提取网页内容的问题

[复制链接]
发表于 2015-3-21 21:41:28 | 显示全部楼层 |阅读模式
本帖最后由 bihex 于 2015-3-21 23:25 编辑

我想提取淘宝页面中的标题下面的介绍内容如这个http://item.taobao.com/item.htm?id=37068329846

活动啦,限时--拍下14.9元一件包邮!-----【29元两件包邮!!买三件42元就包邮!!!56元四件包邮!!】包邮申通、汇通快递,不到地区可以留言发邮政快递!春季新款妈妈裤,亏本疯抢中!~~

网页源码是
<h3 class="tb-main-title" data-title="中老年人春天外穿打底裤薄款秋女妈妈加肥加大码高腰印花小脚长裤">
     中老年人春天外穿打底裤薄款秋女妈妈加肥加大码高腰印花小脚长裤
   </h3>
   <p class="tb-subtitle">
 活动啦,限时--拍下14.9元一件包邮!-----【29元两件包邮!!买三件42元就包邮!!!56元四件包邮!!】包邮申通、汇通快递,不到地区可以留言发邮政快递!春季新款妈妈裤,亏本疯抢中!~~
 </p>
   <div id="J_TEditItem" class="tb-editor-menu"></div>
 </div>
我的提取规则如下,总是提取不成功不知道为何
$url1 = 'http://item.taobao.com/item.htm?id=37068329846'

$oIE1 = _IECreate($url1)
$a = _IEDocReadHTML($oIE1)

$data = StringRegExp($a, '(?si) <p class="tb-subtitle">(.*?)</p>', 3)

MsgBox(4096, "匹配的元数据", $data[0] & @CRLF)
发表于 2015-3-21 22:55:09 | 显示全部楼层
试试
$data = StringRegExp($a, '(?i)subtitle>(.*?)</p>', 1)
发表于 2015-3-21 23:01:17 | 显示全部楼层
没问题啊
#include <Inet.au3>
$url1 = 'http://item.taobao.com/item.htm?id=37068329846'
$data = StringRegExp(_INetGetSource($url1), '(?si) <p class="tb-subtitle">(.*?)</p>', 3)
MsgBox(4096, "匹配的元数据", $data[0] & @CRLF)
 楼主| 发表于 2015-3-21 23:23:44 | 显示全部楼层
没问题啊
zldfsz 发表于 2015-3-21 23:01


换成你的代码可以,不知道问题的原因是什么,有的代码可以,
 楼主| 发表于 2015-3-21 23:25:14 | 显示全部楼层
试试
afan 发表于 2015-3-21 22:55



    这个也可以@!,多谢!
发表于 2015-4-6 12:04:28 | 显示全部楼层
这个也可以
您需要登录后才可以回帖 登录 | 加入

本版积分规则

QQ|手机版|小黑屋|AUTOIT CN ( 鲁ICP备19019924号-1 )谷歌 百度

GMT+8, 2024-4-23 20:57 , Processed in 0.081273 second(s), 23 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表