通行证: 用户 密码 域名空间  下载中心 社区论坛 信息公告 my小屋
联系我们
设为首页
加入收藏

 

qq,asp,php,jsp,xml,sql,.net,编程 程序 网页图象 建站经验 私服
首页 | 新闻资讯 | 编程开发 | 网页设计 | 图形图象 | 网络媒体 | 网站模板 | 数 据 库 | 投稿
论坛 | 操作系统 | 系统优化 | 网络安全 | 黑客技术 | 硬件学堂 | 硬件报价 | 服 务 器 | 地图
专题 | 应用软件 | 聊天通讯 | q q 专栏 | 建站经验 | 在线工具 | 站长club | 注 册 表 | 旧版
社会 | 游戏娱乐 | 设计欣赏 | 疑难解答 | 社区论坛 | 网络赚钱 | 网站地图 | 广告服务 | 服务
当前位置:首页>>编程开发>>vc编程>>正文 新版上线![旧版]
注:打开慢时请稍等
vc6中用dom遍历网页中的元素

http://www.iyit.net  日期:2006-5-3 21:11:36  来源:vckbase  点击:
参加讨论
  下在本文源代码

  一、摘要

  在我们编写的程序中,如果想要实现对浏览器打开的网页进行监视、模拟操纵、动态提取用户输入、动态修改......等功能,那么请你抽出宝贵的时间,继续往下阅读。本文介绍的知识和示例程序都是围绕如何遍历 html 中的表单(form)并枚举出表单域的属性为目标的,对于网页中的其它元素,比如图象、连接、脚本等等,应用同样的方法都可以轻松实现。

  二、网页的文档层次结构

  ie 浏览器,采用 dom(文档对象模型)来管理网页的数据。它通过一个容器(iwebbrowser2/ihtmlwindow2)来装载网页文档(ihtmldocument2),而一个文档,又可以由 0 或多个贞(frame)组成,管理这些贞的接口叫“框架集合(ihtmlframescollection2)”,而每个贞的容器又是ihtmlwindow2,和iwebbrowser2一样,它也装载着各自的文档(ihtmldocument2)。因此,我们的第一个任务,就是想方设法能够得到ihtmldocument2的接口。因为文档可能包含贞,而贞又包含着子文档,子文档可能再包含贞......,如此要得到所有的文档,这里有一个递归遍历的处理过程。

  得到文档(ihtmldocument2)后,下一步任务就是要设法取得表单了(ihtmlformelement)。因为在一个文档中可以包含 0 或多个表单(form),而管理这些表单的又是一个表单集合(ihtmlelementcollection),所以必须先得到集合,然后再枚举出所有的表单条目了。

  得到表单(ihtmlformelement)后,接下来的事情就简单了,逐个提取表单中的元素(也叫表单域 ihtmlinputelement)就可以读写这些域的属性了。

  说了半天,我估计初次接触的朋友一定没有听懂:( 呵呵,还是用图的方式表示一下吧,这样比较清晰一些。

点击放大

  三、程序实现

  <1> 取得 ihtmldocument2 的接口指针。根据ie浏览器的运行方式,有多种不同的方式可以获取文档指针。

  <1.1> 如果你在程序中使用mfc的 chtmlview 视来浏览网页。

  取得文档的方法最简单,调用 chtmlview::gethtmldocument() 函数。

  <1.2> 如果你的程序中使用了“web 浏览器” 的activex 控件。

  取得文档的方法也比较简单,调用 cwebbrowser2::getdocument() 函数。

  <1.3> 如果你的程序是用 atl 写的 activex 控件。

  那么需要调用 ioleclientsite::getcontainer 得到 iolecontainer 接口,然后就可以通过 queryinterface() 查询得到 ihtmldocument2 的接口。主要代码如下:

ccomptr < iolecontainer > spcontainer;
m_spclientsite->getcontainer( &spcontainer );
ccomqiptr < ihtmldocument2 > spdoc = spcontainer;
if ( spdoc )
{
 // 已经得到了 ihtmldocument2 的接口指针
}

  <1.4> 如果你的程序是用 mfc 写的 activex 控件。

  那么需要调用 colecontrol::getclientsite() 得到 iolecontainer 接口,然后的操作和<1.3>是一致的了。

  <1.5> ie 浏览器作为独立的进程正在运行。

  每个运行的浏览器(ie 和 资源浏览器)都会在 shellwindows 中进行登记,因此我们要通过 ishellwindows 取得实例(示例程序中使用的就是这个方法)。主要代码如下:

#include < atlbase.h >
#include < mshtml.h >

void findfromshell()
{
 ccomptr< ishellwindows > spshellwin;
 hresult hr = spshellwin.cocreateinstance( clsid_shellwindows );
 if ( failed( hr ) ) return;

 long ncount=0;
 spshellwin->get_count(&ncount); // 取得浏览器实例个数

 for(long i=0; i<ncount; i++)
 {
  ccomptr< idispatch ><ncount; i++)
  {
   ccomptr< idispatch ><ncount; i++)
   {
    ccomptr< idispatch > spdisp;
    hr=spshellwin->item(ccomvariant( i ), &spdisp );
    if ( failed( hr ) ) continue;

    ccomqiptr< iwebbrowser2 > spbrowser = spdisp;
    if ( !spbrowser ) continue;

    spdisp.release();
    hr = spbrowser->get_document( &spdisp );
    if ( failed ( hr ) ) continue;

    ccomqiptr< ihtmldocument2 > spdoc = spdisp;
    if ( !spdoc ) continue;

    // 程序运行到此,已经找到了 ihtmldocument2 的接口指针
   }
}

  <1.6> ie 浏览器控件被一个进程包装在一个子窗口中。那么你首先要得到那个进程的顶层窗口句柄(使用 findwindow() 函数,或其它任何可行的方法),然后枚举所有子窗口,通过判断窗口类名是否是“internet explorer_server”,从而得到浏览器的窗口句柄,再向窗口发消息取得文档的接口指针。主要代码如下:

#include < atlbase.h >
#include < mshtml.h >
#include < oleacc.h >
#pragma comment ( lib, "oleacc" )

bool callback enumchildproc(hwnd hwnd,lparam lparam)
{
 tchar szclassname[100];

 ::getclassname( hwnd, &szclassname, sizeof(szclassname) );
 if ( _tcscmp( szclassname, _t("internet explorer_server") ) == 0 )
 {
  *(hwnd*)lparam = hwnd;
  return false; // 找到第一个 ie 控件的子窗口就停止
 }
 else return true; // 继续枚举子窗口
};

void findfromhwnd(hwnd hwnd)
{
 hwnd hwndchild=null;
 ::enumchildwindows( hwnd, enumchildproc, (lparam)&hwndchild );
 if(null == hwndchild) return;

 uint nmsg = ::registerwindowmessage( _t("wm_html_getobject") );
 lresult lres;
 ::sendmessagetimeout( hwndchild, nmsg, 0l, 0l, smto_abortifhung, 1000, (dword*) &lres );

 ccomptr < ihtmldocument2 > spdoc;
 hresult hr = ::objectfromlresult ( lres, iid_ihtmldocument2, 0 , (lpvoid *) &spdoc );
 if ( failed ( hr ) ) return;

 // 程序运行到此,已经找到了 ihtmldocument2 的接口指针
}

  <2> 得到了 ihtmldocument2 接口指针后,如果网页是单贞的,那么转第<4>步骤。如果是多贞(有子框架)则还需要遍历所有的子框架。这些子框架(ihtmlwindow2),被保存在集合中(ihtmlframescollection2),取得集合指针的方法比较简单,取属性 ihtmldocument2::get_frames()。

  <3> 首先取得子框架的总数目 ihtmlframescollection::get_length(),接着就可以循环调用 ihtmlframescollection::item()函数一个一个地取得子框架 ihtmlwindow2 指针,然后转第<1>步。

  <4> 一个文档中可能拥有多个表单,因此还是同样的道理,先要取得表单的集合(ihtmlelementcollection,其实这个不光是表单的集合,其他元素的集合,比如图片集合也是用它)。这个操作也很简单,取得属性 ihtmldocument2::get_forms()。

  <5> 属性 ihtmlelementcollection::get_length() 得到表单总数目,就可以循环取得每一个表单指针了 ihtmlelementcollection::item()。

  <6> 在第<5>步中的item()函数,得到的是一个idispatch的指针,你通过queryinterface()查询,就可以得到 某类型输入的指针,代码如下:

// 假设 spdisp 是由ihtmlelementcollection::item() 得到的 idispatch 指针
ccomqiptr < ihtmlinputtextelement > spinputtext(spdisp);
ccomqiptr < ihtmlinputbuttonelement > spinputbutton(spdisp);
ccomqiptr < ihtmlinputhiddenelement > spinputhidden(spdisp);
......
if ( spinputtext )
{
 //如果是文本输入表单域
}
else if ( spinputbutton )
{
 //如果是按纽输入表单域
}
else if ( spinputhiddent )
{
 //如果是隐藏输入表单域
}
else if ........ //其它输入类型

  上面的方法,由于使用具体类型的接口指针,因此程序的效率比较高。但是通过 queryinterface 接口查询,然后再进行条件判断显然是比较烦琐的,所以这个方法适合于特定的已知网页设计内容的程序。在示例程序中,我则是直接使用 idispatch 接口进行操作的,这个方式执行起来稍微慢一些,但程序比较简单。主要代码和说明如下:#include < atlbase.h >
ccommodule _module; // 由于需要使用 ccomdispatchdriver 的 idispatch 包装类atl智能指针,所以这个是必须的

#include < atlcom.h >
......
long nelemcount=0; //表单域的总数目
spformelement->get_length( &nelemcount );

for(long j=0; j< nelemcount; j++)
{
 ccomdispatchdriver spinputelement; // idispatch 的智能指针
 spformelement->item( ccomvariant( j ), ccomvariant(), &spinputelement );

 ccomvariant vname,vval,vtype; // 域名称,域值,域类型
 spinputelement.getpropertybyname( l"name", &vname );
 spinputelement.getpropertybyname( l"value",&vval );
 spinputelement.getpropertybyname( l"type", &vtype );
 // 使用 idispatch 的智能指针的好处就是:象上面这样读取、设置属性很简单
 // 另外调用 invoke 函数也异常方便,invoke0(),invoke1(),invoke2()....
 ......
}

  四、结束语

  示例程序在 vc6 下编译执行通过。运行方法:随便启动几个 ie 浏览网页,最好是有表单输入的网页。然后执行示例的 exe 程序即可。

编辑:黑鹰 [发送给好友] [打印本页] [关闭窗口] [返回顶部]
上一篇:visual c++设计udp协议通讯示例
下一篇:vc++下用mscomm控件实现串口通讯
转载请注明来源:www.iyit.net
特别声明: 本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员,我们尽快予以更正。

 相关文章
vc++实现对远程计算机屏幕的监视 vc下揭开“特洛伊木马”的隐藏面纱 多线程技术在vc++串口通信程序中的应用
用vc++制作一个简单的局域网消息发送工 用vc++6.0的sockets api实现一个聊天室 用vc++实现上网拨号功能
vc++ smtp协议电子邮件传送剖析 vc++实现gps全球定位系统定位数据的提取 用vc 6.0实现串行通信的三种方法
用vc++6.0编写proxy服务器 vc++编程实现网络嗅探器 vc编程轻松获取局域网连接通知
用vc++实现版本在线升级 vc下用win32 api实现串行通信 vc++多串口控制解决方案api版
vc编程用upd协议实现广播通信 基于vc的串行通信技术应用实例 vc下使用icmp实现路由跟踪
vc下用mfc类实现网络编程 用vc++6.0实现snmp协议的方法 vc6.0编写c/s消息传送程序
实例解析ipv6下的vc网络编程 用vc++实现企业网络数据共享 vc++下用mscomm控件实现串口通讯
最新更新 热点排行 推荐新闻
vc++实现对远程计算机屏幕的监视
vc下揭开“特洛伊木马”的隐藏面纱
多线程技术在vc++串口通信程序中的应用
用vc++制作一个简单的局域网消息发送工
用vc++6.0的sockets api实现一个聊天室
去除dw mx 2004表格宽度辅助
驯服不听话的网页表格
dw mx 2004代码编辑新功能
细品dw mx 2004内建fw技术
用 javascript 写的一个映射表类
dreamweaver里使用层的一些建议
表格边框魔鬼教程
用dreamweaver进行网页优化
用dreamweaver制作拖拽效果
寻找dreamweaver鲜为人知的小秘诀
vc++实现对远程计算机屏幕的监视
vc++实现gps全球定位系统定位数据的提
vc下揭开“特洛伊木马”的隐藏面纱
多线程技术在vc++串口通信程序中的应用
用vc++制作一个简单的局域网消息发送工
qq珊瑚虫外挂4.0版本发布!
多个广告位招商!
摄影后期系列一:1分钟为数码相片去红眼
教您显示器亮度对比度的调节
qq挂机说明
asp进度条
photoshop通道抠图:给秀发飞扬的mm照
新版上线,今日正式开通!!!
更多精彩图文广告等着您!
免费在qq上看在线电影电视听音乐
第二十章 开发delphi对象式数据管理功
sql简明教程(1)
vbscript和javascript互相调用 
jsp教程(四)-jsp actions的使用
操作系统被入侵后的修复过程
五一别忘电脑防毒 养成良好上网习惯
google对ie浏览器将捆绑搜索功能表担忧
新版上线,今日正式开通!!!
用photoshop创意图形“岁月”
摄影后期系列一:1分钟为数码相片去红眼

 友情链接
设置首 页 - 版权声明 - 广告服务 - 关于我们 - 联系我们 - 友情连接
copyrights © 2004-2006 iyit.net all rights reserved.
网站合作、广告联系qq:147007642、466949678
易特网络技术 点击这里给我发消息