由中国通信学会、中国通信工业协会,中国电子信息产业发展研究院和通信产业报社共同举办的“2013中国通信产业大会暨中国通信技术年会”在京开幕,大会主题为“赢4G·宽未来”,与业界共同探讨产业发展的未来之路。通信产业网进行全程直播报道。下面由北京浩瀚深度信息技术股份有限公司CTO陈陆颖演讲,题目是“浩瀚数据 深度学习”。
陈陆颖:尊敬的领导、各位专家、业界同仁早上好,我是来自北京浩瀚深度信息技术股份有限公司(以下简称为浩瀚深度)的陈陆颖。浩瀚深度成立于1994年,我们从2003年开始致力于宽带互联网、移动互联网的流量管理和大数据的分析。今年我们完成了股份制的改制,而且我们更名为浩瀚深度。浩瀚形容为我们的数据非常大,深度也深度学习、深度创造的意思。浩瀚深度从2003年开始,在我们的通信骨干网,IDC网络,包括省网、行业和企业的网络部署了大量的流量分析和管理,采集我们的大数据,做流量的统计、分析以及我们的流量智能管道和流量经营。
今天的报告分为三个部分:
1、大数据产业链及发展趋势。
2、以浩瀚深度公司针对大数据的采集、分析和挖掘进行分享。
3、关于通信及互联网行业数据及信息服务的实际案例应用。
互联网、移动互联网和物联网的发展为我们迎来了数据的海量时代。通过积累数据进行深度的数据挖掘,利用互联网思维将数据转化为商业智能和利益,是最终的目标。两种企业在大数据的产业链中处于重要的规则,一个是掌握海量数据的企业,第二是有强大的数据的分析的企业。
互联网的大数据的产业链我们可以以大数据的生命周期,从下到上分为三个主要的部分,第一是数据的采集、传输和存储。第二是数据的加工、分析和挖掘,第三部分是数据的呈现、使用和消费。研究调查报告表明,数据市场的年复合增长率为26%,从148亿美元增加到463亿美元,每个层次都是生态链上重要的一环,所以大数据产业链上我们浩瀚深度作为大数据的分析以及数据服务的提供商,为业界提供数据服务。
从2010年开始大数据的公司开始重视数据的重要性,从IBM、Oracle、惠普到微软都在做大数据的产业链准备,包括数据挖掘、商业智能,这几年收购了大量的大数据公司,通过大数据的分析挖掘为我们的商业智能提供最好的基础。
我们拿互联网和现实社会进行一个比对,互联网是存在以数据信息流,以一种无形的角度在网络上进行通信,比对我们现实的网络,我们可以看到实际上互联网上需要一些类似于照相机、摄像机,包括红绿灯这么一种基础的结构,对网络上的数据进行管理和统计、分析,采集用户上网的一些行为,对网络带宽进行合理的调配和优化,保证我们的上网的高性能和高质量。
DPI技术作为互联网监测最核心的技术,其实这十年来发生比较大的变化,从最开始有一些冲突,比如说我们为什么需要利用DPI技术对网络进行控制,到逐渐为业界所接受,到目前为止成为互联网监测重要的不可或缺的技术。10年来大家从关注DPI技术转向对市场和价值的关注。网络大数据这个行业实际上很大程度上会依赖于DPI的技术。我们从市场的驱动力来看,可以满足网络可视化,可以满足智能管道,商业智能,提供精准的广告,增值消费,网络安全、政策控制、信息平台,用户上网和业务体验有很大的作为。
这是我们大数据的互联网的部署图,从无线网络到宽带接入,到我们的IDC网络,到最后的运营商的互联互通,都可以部署我们的DPI设备。可以采集整个用户上网的行为,包括他的位置信息,终端信息,以及上网的喜好信息。通过对全网数据的分析和整合,就是我们刚才说的深度挖掘,可以了解整个互联网流量流向的情况,热点资源所在的位置,以及用户喜好信息,针对用户的上网数据可以了解用户在上网过程中的质量,他的喜好和行为,从而合理调配我们的网络资源。比如刚才刘院士也提到将视频数据部署到接近用户的位置。
这是网络分析的四维价值,我们从用户的角度分析网络,也可以从技术的角度,包括网络的接入、核心、承载,一直到不同的终端,以及终端上使用的业务应用,将整个Who、What、Where、When这四个W做好。
这是我们构建的数据采集层面,利用业界的大数据技术,对用户的上网数据以及网络的数据进行存储和分析,包括第三方的运营商的系统,我们行业的用户提供一些开放和智能的数据接口。当然我们在利用一些数据挖掘的工具,可以了解我们上网的一些行为,网络的故障,还有包括商业的价值,利用数据的建模提供给更高层的应用网络。
作为一个流量监测的角度来说,能够深入的识别和了解用户的上网业务是非常重要的一个基础,我们运营商,或者说我们对业界来看最关心的是哪些应用,是用户最喜欢的,流量最大的,点击量最高的应用,这些应用涉及到常用的互联网应用,以及运营商自己开发的自有业务,以及移动互联网产生的新移动手机应用,这些应用在互联网上利用DPI技术,可以做到识别、统计和计量,能够满足我们在基于内容计费的,以及差异化计费的基础。因为现在的应用使用了各种各样的通信的底层的技术,包括动态端口的伪装,所以在高速、复杂的互联网上进行这些业务的分析和识别是非常困难的,所以需要运用到我们专用的一些流量管理系统来做业务的分析和识别。
作为流量的数据来说,数据的准确性、实时性、多维度、细粒度、完整度是做大数据后续的基础,所谓的准确性是保证数据的准确,实时性是我们做大数据决策的时候要利用到实时的维度。多维度和细粒度决定了数据的关联程度和被剖析度。数据的完整性是在采集系统来说不能够有偏,不能因为数据偏向于高端人群或者偏向于低端人群,针对这些数据进行统一的分析,我们可以知道用户的上网的使用业务,包括数据的情况、质量、时间以及喜好信息,我们将互联网的用户上的行为整合成一个大的网络日志,能够提供后续的系统进行存储、压缩、分析和挖掘。
从网络行为日志和普通的流量分析和基于服务器的日志,它有一些自己的特点和优势,通过部署在策略的DPI系统可以做用户的识别、业务的识别,不依赖于服务器进行分析,不仅可以满足高速互联网的数据上报,也可以实现各种解码和数据生成。当业务系统受到攻击,或者受到入侵的时候,这个网络流量系统可以第一时间捕获上网的行为数据,通过后续的数据找出来是哪些服务器或者哪些用户做了一些违法的行为。通过海量的数据日志,可以构建一个数据分析挖掘的平台,按照不同的时间粒度和维度进行统计分析、分布、排名,为我们的互联网提供好的数据。
我们简单看一下运营商上网日志量的估算,实际上一天的实际流量大概是100个GB,我们对服务连接的数据进行完成的时候,大概是1%的数据量,就是每天一个10G的POS链路会产生一个TB的上网日志,针对一些特定的业务,比如HTTP、FTP,日志量会达到每天1.5GB-2GB,现在中国三大运营商和其他运营商的总带宽大概是200T到300T,这样可以算出网络流量日志每天将达到20-30PB,这是我们最重要的大数据的分析基础。
第二部分谈一下我们对浩瀚深度公司在大数据分析平台的一些技术积累,我们将互联网的上网用户数据合成一个上网日志,通过接口导入到Hadoop大数据分析系统,将不同的用户,不同的小区,不同的终端以及不同的位置做一个统计分析,可以为运营商的网络规划,对服务质量的探究,以及用户的上网行为,包括市场行为做一些指导。我们的经营数据不仅仅来自于互联网采集到的流量数据,还包括一些来自于运营商各个业务部门的数据,包括用户投诉的数据,以及用户基础数据,将这个大的数据进行整合之后,可以为运营商不同的网络部门,业务部门以及市场部门提供一些商业的决策。
在移动互联网的世界里,这是2G、3G和4G的网络结构图,我们从用户无线上网到服务器端,可以部署我们的DPI的系统,中间将来自于细粒的数据用户上网的行为数据,以及各种应用的深度解析的情况提供给我们的后台进行一个整合。利用浩瀚深度公司的一些智能的分析算法和工具,可以对不同的部门提供各样好的商业决策。
从网络上采集的这些数据,从维度上看主要是这么一些维度,包括终端的分析、业务的分析以及用户的喜好分析。我们以终端为例,实际上可以分析到各种热点的终端情况,它的操作系统,它的应用,它的用户使用覆盖度,根据不同的位置信息以及业务方面,我们可以提供更详细的一些分析报告。比如说某一个商业区,这些商业区里面有多少iphone5的高端客户,在不同的品牌上对于终端的喜好是什么样的范围,所以利用各种维度的数据,可以构建一个智能的商业系统。
第二部分是关于互联网资源的深入的分析,通过对接入层、骨干层和出口层的分析,包括IDC的分析,我们可以了解整个互联网上不同的运营商,业务提供商,以及一些商业网站,他们在提供互联网业务服务的时候,它的热点、用户的喜好、内容以及部署的服务器的位置,可以将整个互联网构建一个统一的资源视图,利用运营商的网络进行分析、调优、整理,即所谓的资源调度,将用户最喜欢视频、数据、大文件输送到最靠近用户的网络服务侧。
浩瀚深度在做对网络数据深度挖掘的课题,包括自然语言处理,网络亲密测度的分析,网络访问的记录的分析。右边有一些数据非常有意思,我们针对互联网热点SP做了一些亲密度的分析,比如说利用网站访问的跟随,利用相同用户的一些特点,可以找出来以QQ、百度、苹果公司为主的互联网社区里都有哪些网站是他们的合作方,这些网站给用户带来哪些应用,比如说广告也好,统计分析,跟踪用户的行为,在这些基础上通过网站的调整和优化,可以满足我们运营商对用户的一些需求。
我们利用互联网网站之间相互的一些亲密度关系定义的一些测度,包括跟随的方式,相同的用户的访问度,在做了权重的分析之后,利用我们访问的大数据,将互联网的网站形成一个生态图,我们将高密度的图整合成低密度的图,找出互联网影响最大的SP,以什么样的方式,什么内容满足最终的用户。不仅在数据采集层,在运营商的网络里需要构造一个数据共享的平台,将网络上采集的数据以分布式的方式存储到大数据分析平台,通过定制化的接口以及一些特定的交换手段,提供给不同的部门。
运营商的网络需要做到可视、可管、可控、可增值的网络,利用可视化的技术可以将用户上网的行为从网络中提取出来。所谓可管、可控就是运用运营商的路由、流控和资源调度进行合理的优化和调度。在分析方面来说可以针对用户终端套餐、网络以及业务做流量价值的分析,对于比较拥塞的网络,或者资源有限的一些网络进行一些控制,对VIP客户或者重要的业务进行资源保障,进行价值的最大化。利用采集到的数据,可以提供网络的市场营销和网络的支撑,通过降低流量成本,进行流量经营,一方面要提升网络的比特价值,第二部分是部署高价值的业务应用。针对终端的分析我们可以向终端制造商或者终端营销分析进行统计报告。对于实时广告的内容,可以通过对用户的行为分析了解用户的喜好,将大的数据提供到整个价值链的工具,就是红框的部分,广告交易平台,数据管理平台。RTB需要大数据提供支持,满足供方和需方的需求。
同时,对于移动互联网最重要的一些行业包括游戏、视频、社交网络,在不同的细分市场利用大数据的分析结果,也可以提供有价值的分析数据,这里面也举了一些关于网游和手游的一些分析数据,包括流量排名,用户数量,谁是重度用户,谁愿意玩某款游戏,在多长时间内消费了多少。所以在面向不同的细分行业,大数据的分析平台是可以提供很好的一些决策性的指导。
将大数据应用到我们的数据中心,也就是IDC也有很大的价值。IDC目前的发展趋势主要是虚拟化、云计算、自动化和智能化,包括可视化和自服务。传统的IDC的管理方案主要针对基础设施,包括电源、功耗、温度、湿度的分析以及资产管理。我们在IDC出口构建一个流量分析系统,可以将我们的视角从传统的IT管理转向IDC或者云计算中心提供的业务和应用的核心角度。
IDC实际上是非常复杂的生态环境,很难用一个单系统满足所有的从物理层到应用层到用户的分析,所以我们假想IDC是人体系统,提供一些智能的诊断手段。服务器的一些基础动力来说,环境、电压我们认为是外科的指标,对于服务器上运行的一些业务应用系统,提供用户的访问的数量,流量以及质量,我们利用流量分析系统去了解这些潜在的流量的知识,通过内科、外科的手段满足我们IDC管理人员、业务提供商和用户对网络访问的一些要求。
这是3D化的呈现,将流量监测系统和传统的IT系统进行整合之后,可以得到非常好的价值,也可以基于我们IDC的数据提供个性化的分析服务,通过统一的智能控制分析,用户喜好的了解,各种资源的分析定位,可以为IDC的数据中心提供持续有效的服务。
总结一下针对IDC的数据中心分析服务体系,我们可以从几个不同的方向为IDC提供深度的运维,包括流量的分析,流量的核算,就是刚才提到的内容计费,带宽的管理,网络安全,以及一些分析要求和异常检测,为IDC的客户提供自己的运维能力。
对于大网来说整个流量分析系统通过分析得到一些网络的流量的数据,有针对性的去调理、控制我们的互联网资源,包括针对不同的业务、不同的用户,不同的位置进行带宽的控制,对于网络需要怎么优化用户上网的行为,去疏导不同的业务。也就是说对低价值用户进行无线资源的限制,重要的业务给予端到端的质量保障。
在互联网的各个通道上,由于一些攻击和恶意的流量,会产生对整个系统产生致命的攻击,通过浩瀚深度流量系统可以实时的了解网络是不是有潜在的攻击行为,通过对攻击行为进行告警,可以将网络流量清洗为用户需要的正常业务。同时,也包括国家要求的网站审计、备案和管理。
从大数据的角度来说,我们在运营商的网络部署各种的系统,在全网进行分析和关联,为运营商的路由优化提供指导,包括互联链路是否应该扩容,业务系统的本地化,在满足用户的基础之上,尽量减少对骨干网、核心网的远程透传。
浩瀚深度的流量采集系统、分析系统以及挖掘系统需要能够整合成一个统一的数据共享平台,利用大数据挖掘向第三方系统提供数据和信息满足对应用要求。我们可以通过各种层面的数据,包括原始报文、统计数据和建模决策之后的结论,提供给运营商的各个部门,以及生态链上的各个企业。
随着移动互联网和物联网的发展,多网融合是一个趋势,现有的固网和移动网不断的向更高的带宽迈进,IPv4到IPV6的演进都需要智能的大数据分析,我们认为在未来网络上构建在互联网之上的专用的流量管理分析系统,将为国家、政府、运营商,以及互联网行业提供最重要的基础数据。
浩瀚深度是长期专注于互联网管理和大数据的厂商,我们的目标是成为称量互联网的大的厂商。我的报告到此,谢谢。