-
第3I卷第6期
2007年11月
燕山大学学报
Journal
of
Yanshan
< p>University
Vbl.31
NO.6
NOV.2007
文章编号:1
007-791
p>
X(2007)06-485-04
一种抽取新闻网页结构化数据的
方法
陈
爽1,李先国1,陈福2,李素3
工商大学计算机学院,北京100037)
(1.西北工业大学计算机学院,陕西西安
710072;2.北京科技大学信息工程学院,北京100083;3.北京
摘
要:根据统计结果,从阅读角度对网页页面空间的构成进行了噪声与信息实体的划分与判断,改进了传统
的DOM模型,增加了层次与样式等属性作为噪声判断的依据,逐级降噪,并利用新闻的
标题、时间等外显特
性,提出并实现了一种结合正向直接抽取与反向过滤降噪抽取新闻网
页得到结构化数据的方法,并使用这种方
法进行了大范围的效果验证。验证结果表明:这
种方法信息抽取准确率高,对中英文新闻网页都有良好的适用性。
关键词:信息抽取;H
TML解析;DOM;标签补偿;噪声标记
中图分类号:TP31
1
文献标识码:A
互联网是世界上最丰富和最密集的信息来源
。
直接通过浏览器显示给读者,但是会对新闻的抽取
产生干扰。
据中国互联网络信息中心2007年1月统计报告Ⅲ,
我国网页
数量已经达到了44.7亿页。
用户从网络中获取信息的最常用的途径就是
访问新闻网页。但实际的网页中却夹杂了大量的干
可见噪声通常包括导航区,
超链接区,底部版
权信息区以及图片控件广告区等。
不可见噪声
都是一些特定标签的集合,通常用
于在页面中实现一些特定的功能。另外HTML中
p>
的语法、注释都是不可见噪声。此类噪声都可以通
过预处理规则识别
并去除。
2.1
扰用户正常阅读广告、链接。
< br>本文讨论了一种web信息抽取技术,目的就
是通过对新闻网页进行抽取,实现网
页中的噪声与
正文信息相分离,得到包含标题、时f.q齐u正文等内
< br>容的结构化数据,同时要对中英文网页均适用。
网页的预处理
可以通过以下两个预处理规则来过滤网页中
1网页页面布局
从用户阅读新闻的目的出发,新闻网页中不但
包含了标题、时问、作者(信息来源)以及
正文等
有实体意义的信号,还包含了导航区,超链连接区
(相关
链接),底部版权信息区以及图片控件广告区
等噪声。1。噪声是用户不需要阅读的部分
,与新闻
事件相关度过低或无关。
的不可见噪声和部分可见噪声
。
1)预处理规则1:仅删除标签本身。
例如:Input、F
orm、Img、Object以及<!一注
释一>等都可以按此规则进行处理。
2)预处理规则2:删除标签本身以及其相应
的起始与结束标签所包含
的HTML文本。
例如:Script标签需要按此规则处理。
2噪声的识别、标记与过滤
2.2识别可见噪声
根据网页空间的
特征将噪声分为两类:可见噪
可见噪声的识别需要从网页空问的布局角度
声与不可见噪声。可见噪声是用户在通过浏览器浏
览的时候可以直接观察到的部
分。不可见噪声不会
收稿日期:2007—09—12
进行分析
。网页空间被HTML语法标签分成了一
基金项目:国家自然科学基金资助项目(No.
60673160)
作者简介:陈爽(1981?),男,山西长治人。硕士研究生。主
要研究方向为知识发现与数据挖掘。
万
方数据
A
)
2
(
486
燕山大学学报
2007
个个相互嵌套又相互独立
的区域。其中的~一个区域
是否是噪声,与其同一级的区域是否是噪声有很大
的关系。这样就需要解决两个方面的问题:
1)如何确定网页空问层次级别
关系;
2)如何识别并标记某个区域内的可见噪声。
2.2.1
网页空间层次结构
网页空间层次级别关系主要是由HTML语法
标签的嵌套结构决定。HTML是一种非强格式的
标记语言,被
用来结构化信息、描述文档的外观和
语义,允许存在不完整的语法标记。
对于语法不规范的网页需要通过缺失标签补
偿和冗余标签删除机制确定网页空间
的层次。只处
理控制页面布局的标签,因为它们可能造成实体信
息污染,而用于控制字体颜色属性等的标签则无需
做处理。在处理过程中要保证不破坏原
有层次结构
造成数据污染。
根据W3C组织的XHTML(th
e
extensible
hy—
per
text
markup
language)”1规范,改进了传
统的
DOM(documentobjectmodel)H1模型,构造了一
种基于标签的层次与属性关系的多叉树结构LA—
DOM(1evel—
attribute
DOM)模型,如图1所示。
图1
基 于层次与属性的多叉树结构
Fig.1
Structure
p>
ofmulti—branches
tree
based
on
level
and
< p>at—
tribute
图1显示了LA—DOM树
的生成过程,将
HTML文本中用于页面布局控制显示的标签作为
子节点加入到树中,将非标签字符视为叶节点”1,
用于表现样式的部分标签和链接标
签,作为叶节点
的属性。根据叶结点是否含有链接,可以分为链接
万
方数据
节点和非链接节点。遇到起始标签时,创建
节点并
标记为未闭合标签,找到结束标签时,则回溯上一
级的节
点,若匹配成功,则标记为闭合标签,否则
认为该节点的结束标签缺失,在当前结束标签
前添
加缺失的结束标签,然后继续回溯,查找与当前结
束标签匹
配的起始标签。若回溯到根节点还未找到
与当前结束标签匹配的起始标签,则认为当前结
束
标签是冗余标签,将其删除。
2.2.2识别区域噪声
链接是网页中潜在的噪声,但是由于HTML
中链接的使用非常自由,
并非所有的链接文字都是
噪声。链接通常用于实现网页的导航,显示用户所
处的网页深度位置,以及帮助用户实现快速跳转到
其它页面等。
在遍历LA—DOM树时,得到以下两个信噪比
计算公式:
< br>‰i蕊IVNoJ,,
(1)
。”r
G户—粤争
h。寸N‰k
、。
式(
1)中,M。定义为节点信噪比,是同一子
树内的非链接叶结点与叶结点总数的比;彳。
。是链
接节点数,它的值等于子树内的全部链接节点的数
目;‰
出是非链接节点数,它的值等于子树内不带
有链接属性的叶结点的数目。
式(2)中,G。,定义为字符信噪比,是子树内
的所有非链接字符数与全部可
显示字符的比;彳肼
是链接字符数,它的值等于…1个链接叶节点中的文
本的长度;M卅是非链接字符数,它的值等于一个
非链接节点中的文本的长度。
将两式的计算结果与统计而得到的阈值作对
比,就可以判断HT
ML中某一区域是否为链接型
噪声。再通过对LA—DOM树进行后序遍历,就可
以实现全树的噪声判断与标记。
3正向抽取
正
向抽取是通过已经确定的信息边界进行实
体信息定位,直接抽取得到结果。根据预处理以
及
LA—DOM树的区域噪声标记等两次降噪处理后