首页

位置导航: 首页 > 学术前沿 > 正文

数据采集:为有源头活水来

来源:威廉希尔

访问:

2014-07-16 09:44

大数据,正由技术热词变成一股社会浪潮,影响着社会生活的方方面面。

/system/_owners/yxxx/_webprj/images/14/07/16/ruw1tx3o01/r_4952250.jpg

大数据时代,谁掌握了足够的数据,谁就有可能掌握未来,而其中的数据采集就是将来的流动资产积累。

大数据当下已发展至零售、金融、电信、交通、医疗、教育等各领域,全球正在朝大数据时代迈进。

大数据时代,我们需要更加全面的数据来提高分析预测的准确度,因此我们就需要更多便捷、廉价、自动的数据生产工具。除了我们在网上使用的浏览器有意或者无意记载着个人的信息数据之外,手机、智能手表、智能手环等各种可穿戴设备也在无时无刻地产生着数据;就连我们家里的路由器、电视机、空调、冰箱、饮水机、净化器等也开始越来越智能并且具备了联网功能,这些家用电器在更好地服务我们的同时,也在产生着大量的数据;甚至我们出去逛街,商户的WIFI,运营商的3G网络,无处不在的摄像头电子眼,百货大楼的自助屏幕,银行的ATM,加油站以及遍布各个便利店的刷卡机等也都在产生着数据。

几乎任何规模企业,每时每刻也都在产生大量的数据,但这些数据如何归集、提炼始终是一个困扰。而大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,从中分析和挖掘出有价值的信息,但前提是如何获取大量有价值的数据。

数据源复杂多样

从大数据的概念我们可以知道,大数据的数据源主要为网络日志、视频、图片、地理位置等等各类网络信息,而这些数据的汇集是实现大数据实施的基础,所以大数据应用建设离不开网络信息数据采集这一核心环节。

不管是政府还是企业,浏览器里的搜索、点击、网上购物、其他数据(比如气温、海水盐度、地震波)、新闻信息、网友留言、网友个人信息、产品信息、人事信息等等都是大数据应用的重要目标,这些信息数据是政府企业战略决策的重要依据。

大数据环节下的数据来源非常多,而且类型也多种多样,存储和数据处理的需求量很大,对于数据展现也非常的高,并且很看重数据处理的高效性和可用性。

谈及数据采集利器,我们最熟悉的就是遍布身边的摄像头,不到10年的时间,城市里的任何一个角落放眼望去就全部是摄像头了。随着互联网技术的大发展,能够接入互联网的终端越来越便宜、在人群中覆盖率不断提高,以致于我们拥有了一个可以覆盖大部分人口的传感器网络。比如我所在的淘宝网,每天有亿级别的用户访问、购物。在传统的工业时代,我们永远无法知道一个人在超市做了什么、也很难分析每个人在超市买了什么东西,尽管你有收银数据。而在互联网这个每个人都带着传感器的时代、一切行为都可能被记录、分析、用于优化你未来的体验。

精准分析之数据采集要真实可靠

现今,数据的作用正在迅速膨胀并变大,它影响着企业工作战略的制定,虽然现在企业可能并没有意识到网络信息数据采集的不到位给自身工作带来的问题和隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。当下大部分公司都有自己的渠道,即自己的方式去收集数据。对数据来说有两个方面:一个就是通过分析以后给客户的数据;另外一个就是公司内部用。给客户的数据首先就要保证准确性,这个很重要。还有它的出处是不是官方的?另外这些数据是不是涉及到别人的隐私?关于公司内部使用的数据,通常更注重如何与业务发展、产品完美结合。

数据分析和数据挖掘的重点都不在数据本身,而在于如何能够真正地解决数据运营中的实际商业问题。但是,要解决商业问题,就得让数据产生价值,就得做数据分析和数据挖掘。而在数据分析和数据挖掘之前,首先必须保证采集到高质量的数据。只有通过对所需数据的全面准确采集,形成数据流规模,然后再对数据流进行分析,这样分析出的数据结果对决策行为才有指导性作用。

采集数据源种类繁多,以及采集速度要快更是一个严峻挑战,因为采集过程本来就是数据质量问题的主要来源。采集数据源杂乱,采集速度又快,如果不能及时进行数据质量处理,就会导致数据质量问题的堆积,越来越严重。所以在采集环节,就必须引入实时数据质量监控和清洗技术,通过强大的集群和分布式计算能力,提高数据采集性能和数据质量监控性能,利用强大的分布式云计算技术,实现数据抽取、数据清洗以及数据质量检查工作。

完成全面数据采集后,就应该有准确的分析和使用数据能力,透过对采集数据的深入分析,了解事件的事实真相和事件背后的社情民意,预判各种事件的发展走向,这些变动对整个大局会产生什么样的影响,影响是否会阻碍自身的健康发展,这都需要我们用数据来衡量,用数据反映出的事实来指导我们工作策略的制定,让我们的工作决策理性化而不是经验化。

数据采集未来是一个很大的市场,因为分析的数据模型可以根据需求和思维做,但所有的前提是你的数据采集要准,现在的问题一个是采集不到,一个是采集错了,还有一个是采集效率受到网络带宽限制,这几个都做不到的话数据价值很难用起来。

/system/_owners/yxxx/_webprj/images/14/07/16/ruw1tx3o01/r_4952752.jpg

你的一举一动、地理位置、甚至一天去过哪些地方,都会被记录下来,成为海量无序数据中的一个数列,和其他数据进行整合分析。

当数据采集遇上隐私安全怎么办?

随着移动互联、云计算等技术的飞速发展,无论何时何地,手机等各种网络入口以及无处不在的传感器等,都会对个人数据进行采集、存储、使用、分享,而这一切大都是在人们并不知晓的情况下发生。你的一举一动、地理位置、甚至一天去过哪些地方,都会被记录下来,成为海量无序数据中的一个数列,和其他数据进行整合分析。

比如,当你用手机扫描二维码,并将其用微博转发的时候,你的消费习惯、偏好,甚至你的社交圈子的信息,就已经被商家的大数据分析工具捕获。大数据平台在提供服务的同时,也在时刻收集着用户的各种个人信息:消费习惯、阅读习惯甚至生活习惯。这些数据,一方面给人们带来了诸多便利,但另一方面,由于数据的管理还存在漏洞,那些发布出去或存储起来的海量信息,也很容易被监视、被窃取。

大数据散发出不可估量的商业价值。但让人感到不安的是,信息采集手段越来越高超、便捷和隐蔽,对公民个人信息的保护,无论在技术手段还是法律支撑都依然捉襟见肘。人们面临的不仅是无休止的骚扰,更可能是各种犯罪行为的威胁。大数据时代,谁来保护公民的个人隐私?既是每个人都应当思考的问题,也是政府部门不可推卸的责任。