2013中国数据挖掘者调查


        近几年,诸如大数据、海量数据等概念在中国被广泛提及,基于大数据的数据挖掘也被提上日程。数据挖掘目前在中国开展的情况,数据挖掘者的工作情况,学界、业界在数据挖掘领域的实践,这些都是我们此次调查想要了解的情况。经过为期12天的在线调查,137位受访者的细心的填答,还有 Rexer Analytics 公司的大力支持。中国传媒大学调查统计研究所先将这次调查的主要结果分享给大家。


使用与环境

数据采集多久后用于分析

数据分析完多久后能被实际应用

工具与平台

Windows:75.9%Linux:46.0%Unix:8.0%Mac OS-X:2.9%

从不很少有时经常总是

图形用户界面

修改和使用现成的代码

编写新的代码

最不重要最重要

  • 处理数据能力
  • 支持多种数据库
  • 处理海量数据
  • 模型的质量和准确度
  • 稳定性和可靠性
  • 速度
  • 自动执行重复工作
  • 能否批处理
  • 能调整算法选项
  • 简明的输出
  • 操作简易性
  • 有我需要的分析技术
  • 提供多种算法
  • 完备的说明文档
  • 边写代码的难易
  • 协同工作的能力
  • 上手的难易
  • 用户界面
  • 支持代码的能力
  • 价格
  • 安装和维护的难易

数据挖掘使用领域

  • 目前我国数据挖掘分析方法主要应用在学术、客户关系管理/市场营销、网络三大领域研究,其中一半以上的研究者将数据挖掘应用于学术领域。
  • 金融、零售业、电信业、科技等领域也有较多数据挖掘者涉猎。

数据挖掘常用算法

  • 根据调查结果显示,聚类分析、回归分析、决策树、时间序列、关联规则等传统数据挖掘分析方法比较受数据挖掘者的使用偏好。

经常分析的数据类型

  • 数据挖掘者处理经常处理的数据类型的前三位是数字、文本和互联网数据。
  • 声音、空间数据、图像等数据类型的分析相对较少。

数据挖掘使用时间特点

  • 在数据采集后,数据挖掘者能在较短时间内进行数据分析工作,由调查可知,近一半的被访者可以在几小时内开始数据分析工作,超过八成的被访者可以在几天之内开始数据分析工作。
  • 根据调查发现,分析结果被实际应用的时间较数据分析所需时间而言较长,25.5%的被访者表示需要几天的时间,24.8%的被访者表示需要几个星期的时间。

文本挖掘使用描述

  • 关于国内数据挖掘者对于文本挖掘的最佳描述,近一半的被访者认为“我们一般将文本挖掘合并进我们的分析”,占总体的48.9%。仅有25.5%的被访者表示没有使用任何文本分析的计划。

文本分析中文本来源

  • 关于选择何种文本作为其文本分析的来源,通过调查可以发现,网络文本数据依然占据最大比重。25.5%的被访者选择博客和其他社交网络,比重最大;另外有17.5%的被访者选择网上论坛或评论网站。选择顾客、市场调查作为分析来源的被访者也较多,占总体的14.6%。

使用的计算环境

  • 本地计算环境仍然是数据挖掘的主流,云计算虽然近几年发展势头迅猛,但在实际应用中所占比例较低。

操作系统

  • 近八成数据挖掘工作者使用的操作系统是Windows。

如何操作分析工具

  • 数据挖掘者们倾向于经常使用图形用户界面,有时也会修改已经写好的代码,有14.6%的被访者从不编写新的代码。

选择数据挖掘软件是考虑的因素

  • 在选择软件时,从业者们最看重处理数据的能力,软件价格和安装管理的难易程度则相对最不重要。