中国互联网络信息资源数量调查报告第2页
有各类在线数据库的网站比例情况71图89各类在线数据库平均拥有的记录数72图90各类在线数据库的更新周期情况73图91各类在线数据库的每次更新比率情况75图92各类网站在线数据库具有其它载体情况76图93各类网站在线数据库具体载体形式76图94在线数据库收费情况77图95在线数据库面向对象情况78表目录表1调查内容和指标2表2地区域名数量分布9表3www站点性质分类10表4地区网站数量分布11表5各类网站的网站链接情况17表6各类网站的信息主要来源情况18表7各类网站提供的语种/文字阅读情况20表8各类网站拥有服务器情况23表9拥有服务器的各类网站所采用的操作系统情况25表10各类网站负责运营的平均全职员工人数拥有情况27表11网页数及网页字节数情况61表12网页的编码情况62表13网页的内容分类情况(按多媒体形式)62表14网页的更新周期情况62表15前100家网站的网页数及网页字节数情况63表16前100家网站的网页编码情况63表17前100家网站的网页内容分类情况(按多媒体形式)64表18前100家网站的网页更新周期64表19在线数据库数量及分布情况67表20各类网站拥有在线数据库情况68表21拥有各类在线数据库的网站比例情况70表22各类在线数据库平均拥有的记录数71表23各类在线数据库的更新周期情况73表24在线数据库的每次更新记录比率情况74表25在线数据库的载体情况75表26各类网站在线数据库具体载体形式76表27在线数据库收费情况77表28在线数据库面向对象情况78第一部分调查背景信息资源是国家的战略资源,它在国民经济信息化中位于核心的地位。正确开发、利用信息资源对促进我国信息化的快速发展,导正我国信息化的发展方向,拉动国民经济和社会发展,提高全民族的文化素质和创新能力,促进社会进步和繁荣,实施西部大开发战略等方面有着十分重要的意义。互联网络信息资源是信息资源的重要组成部分,自从20世纪90年代中期开始,互联网在我国迅猛发展,网上中文信息资源快速增长,到20xx年12月31日,全国在线数据库达到82929个,共15709万个网页,2744G数据量。网上政府信息、行业和企业信息、科技教育信息、文化娱乐信息、新闻信息、旅游信息、区域特色信息等均已形成一定规模。随着互联网络的飞速发展,我国互联网络信息资源得到了很大的发展,但是我国互联网络信息资源不断进展的同时,存在一些问题需要重视。例如,网络和数据库存在大量低水平重复建设,难以实现互联共享;信息资源的开发滞后应用,存在大量信息孤岛现象等。因此,加大对我国互联网络信息资源开发和利用的引导力度,迫在眉睫。为加深政府对我国互联网络信息资源开发和利用情况的把握,包括信息资源的存量、增量以及地区和行业分类特征等,为加快制定有关信息资源发展政策和措施提供重要参考依据,促进政府对信息资源开发的有力引导,促进我国互联网络信息资源的充分利用,国务院信息化工作办公室决定对我国各行、各业、各地区互联网络信息资源数量情况进行全面调查。本次调查是我国互联网络信息资源的第三次数量调查,开始于20xx年12月,结束于20xx年2月,历时3个月。在保持与前二次调查有一定连续性、借鉴前二次调查成功经验的基础上,在调查方法、调查深度、结果分析等方面有所创新。本次调查初步探索了我国互联网络信息资源发展中的问题和规律,为我国政府进一步正确引导互联网络信息资源的开发利用提供了重要参考。第二部分调查说明一、调查对象所有域名注册单位属于中国(不包括香港、澳门、台湾)的网站总和,包括.COM,.NET,.ORG和.CN域名(含ORG.CN,GOV.CN,EDU.CN等)下的所有网站。二、调查内容表1调查内容和指标指标数据来源备注域名数量CIC数据 注册商上报网站数量CIC数据 注册商上报网页数量计算机自动搜索在线数据库数量问卷调查域名各地区域名分布状况CIC数据 注册商上报网站各地区网站分布状况CIC数据 注册商上报按照省级行政区域划分各种性质的网站分布状况按照网站的域名特征划分主要类型网站提供的服务问卷调查政府、商业、企业各行业网站分布状况按照标准行业分类法网站相关特征每天页面访问数服务器拥有情况网站的链接数网站的员工数网站成立时间频道数网站版本网站的可访问性网站地图等安全性防火墙、操作系统等网站效果指标信息发布可用性度量业务结合网页网页按内容形式分类比例计算机搜索包括图像、音频和视频网页按性质分类比例政府、企业、商业等网页按地域分布比例省域及七大区分布网页长度以字节数计算网页的更新周期网页编码状况简、繁体中文、英文等在线数据库按性质分类比例问卷调查政府、企业、商业网站等按地域分布比例华北、华南等七大区分布按内容分类比例产品、科技信息数据库等按形式分类比例图形文字数据综合等按使用情况分类比例分自用和公用公用下分免费和收费收费下分收费方式按服务方式分类比例面向终端用户或中介在线数据库更新状况-数据库容量物理存储量(G)是否同时具有其它载体否、是(光盘、纸质等)三、调查时间调查时间:20xx年12月-20xx年2月;数据截至时间:20xx年12月31日。四、有关概念1.在本次调查中,中国互联网络信息资源定义为:中国互联网络上公开发布的网页和在线数据库的总和。2.中国互联网络是指所有域名注册单位属于中国大陆的网站总和。3.在线数据库是指以Web为界面,提供公共检索的收费或免费的数据库。4.网站是指有独立域名的web站点,其中包括CN和通用顶级域名(gTLD)下的web站点。此处的独立域名指的是每个域名最多只对应一个网站WWW. 域名,如:对域名sina.com.cn来说,它只有一个网站www.sina.com.cn,并非它有news.sina.com.cn、mail.sina.com.cn……等多个网站。5.商业网站指业务主要在网上进行的电子商业网站,如新浪、搜狐、网易等网站;企业网站是相对于商业网站而言,指业务主要在网下进行的企业所建立的网站,如联想集团的网站www.lenovo.com.cn。6.网页搜索是指对抽取的网站从其首页(WWW 域名)开始搜索,通过网页上的层层链接,抓取所有属于该网站的网页的特征及其文本内容。7.静态网页是指URL中不含?和输入参数的网页,包括:*.htm、*.html、*.shtml、*.txt、*.xml等。8.动态网页是指URL中含?或输入参数的网页,包括:A,PHP,PERL,CGI等在Server方进行处理的网页。9.网页的编码形式:是根据网页本身的信息通过分析得到的,不是通过一篇网页在HTML中的声明来判断的。因为大量国内的英文网页在其HTML声明中都是简体中文。10.网页的内容形式:是通过文件后缀获得的。关于图像、音频、视频的文件后缀定义标准参考MIME标准。11.网页的更新情况:网页的更新时间是指搜索到该网页的当日日期与该网页的最后更新日期之间的时间段。五、调查方法(一)数据获取方式和渠道域名和网站的总量数据通过国内各国际域名注册商和CIC联合获得。网页的特征数据由百度公司利用搜索技术对全国网站进行搜索获得。搜索时通过URL判断同一网页是否有多个链接指向,避免了对这类网页的重复计算,通过判断不同网站的IP地址和首页字节数是否相同,排除了不同域名指向同一网站的情况。网站的特征数据及在线数据库的特征数据通过CallCenter电话问卷调查的方式获得。(二)调查问卷的抽样方法1.总体界定按照对中国互联网络信息资源的定义(中国互联网络上公开发布的网页、在线数据库的总和),同时考虑到未注册域名而提供服务的网站数量较少以及调查的难度,本次调查中所指的总体为:中国(不包括香港、澳门、台湾地区)所有已注册域名的网站,包括.COM,.NET,.ORG和.CN域名(含ORG.CN,GOV.CN等)下的所有网站。2.抽样框关于抽样框,最直接的作法是选择抽样框为全国有域名的网站名录。由于保密性的原因,抽样过程需要委托各域名注册/代理商完成,从方便实施并提高数据精度的角度考虑选择抽样框为全国(不含港、澳、台)范围内的域名名录。由于一个网站可能会有两个或两个以上域名,而有的域名没有建立网站。这样对于总体而言,就出现了抽样框单位没有对应的抽样单位、抽样框单位和抽样单位不一一对应等问题。对此,考虑采用排除、事后加权等方法来解决。3.抽样方法本次调查的抽样方法采用分层按比例抽样:考虑到各域名类别下网站特征的差别,首先按域名类别分层;之后在每个类别内采用定距抽样的方法来抽取样本,最后对调查结果进行事后加权处理以估计全国范围的估计量。下面分阶段叙述抽样方法:第一阶段:将样本量分到各层因为到目前(20xx年11月)为止只有截止20xx年6月30日的全国范围的域名数的情况;同时考虑到我们主要是利用各类别域名数之间的比例关系来确定样本量在各层的分配,而这种关系应该不会有较大的变化。因此本方案按照截止20xx年6月30日的各类别域名数占全国域名总数的比例将样本总量分配到各域名类别。第二阶段:将样本量分配到各域名注册/代理商抽样过程由域名注册/代理商按照抽样办法(由中国互联网络信息中心提供)抽取指定数量的域名作为样本。样本按照各域名注册/代理商所注册拥有的域名数的比例进行分配。具体计算办法如下:Mij=Mj×(Nij/Nj)其中:Mij表示第i家域名注册/代理商所应抽取第j类的域名数,Mj表示第j类应抽取的域名样本数,Nij表示第i家域名注册/代理商所拥有第j类的域名总数,Nj表示第j类的域名总数。第三阶段:各家域名注册/代理商抽取域名样本考虑到尽可能简化各域名注册/代理商抽取样本的工作量和保证抽样的精度,要求各域名注册/代理商在整理了域名名录(抽样框)后采用等距抽样,抽取样本步骤如下:步骤1:分组以域名的类别为单位对域名名录进行分组。步骤2:排序由域名注册/代理商对其抽样框(域名名录及相关信息)内各组域名首先按照域名注册单位所属省份排序,进而在域名注册单位所属省份下按域名注册先后时间进行排序。步骤3:编号对各组内完成排序的域名进行编号。域名注册单位所属省份排序和编号规则规定如下:序号省市区序号省市区序号省市区序号省市区1北京9上海17湖北25云南2天津10江苏18湖南26西藏3河北11浙江19广东27陕西4山西12安徽20广西28甘肃5内蒙古13福建21海南29青海6辽宁14江西22重庆30宁夏7吉林15山东23四川31新疆8黑龙江16河南24贵州步骤4:抽取样本以第i个域名注册/代理商、抽取第j类样本的过程为例叙述如下。第i个域名注册/代理商在第j组域名列表中抽取出指定数量的Mij个域名作为其提供的第j类域名的样本,抽取的规则如下:首先计算一个抽样距离XIJ(XIJ=Round(nij/Mij)),XIJ为第i个域名注册/代理商在第j类样本中的抽样间距,然后随机从1到nij中选出一个数S,那么编号为P=S k*Xij(k=0、1、2、3Mij-1)的域名即为被抽取的样本域名(当gtij时,取P=P-nij)。其他组的样本抽取过程类似,将各组中抽取到的样本综合到一起可组成第i个注册/代理商应抽取的样本。步骤5:获取样本相关资料将以上步骤所抽取的样本域名及其相关信息(包括:域名、域名类型、域名注册时间、域名所属单位、域名单位所在地、域名联系人、联系电话等)存为Excel工作表文件。格式如下:序号域名域名类型域名注册时间域名所属单位域名单位所在地联系人及联系方式1cic.net.cet北京 将所有注册/代理商提供的样本合并即成为调查所需样本。六、调查问卷本次问卷调查的有效网站样本数为2492个,在置信度为95的精度要求下,可保证最大允许绝对误差小于2。调查问卷时间为20xx年12月-20xx年2月。问卷所采集数据的相应记录时间为20xx年12月31日。七、组织单位1、委托单位:国务院信息化工作办公室2、实施单位:中国互联网络信息中心(CIC)3、协助单位(按字母排序):百度在线网络技术(北京)有限公司北京东方网景信息科技有限公司北京信海科技发展公司北京信诺立兴业网络通信技术有限公司创联万网国际信息技术(北京)有限公司东方通信股份有限公司搜狐爱特信信息技术(北京)有限公司厦门必信电脑网络有限公司厦门精[1][2][3][4][5]下一页
在百度搜索:20xx年中国互联网络信息资源数量调查报告