举个例子来理解一下:比如一个分析师一直单身,想去找一个女朋友,他可以很迅速的知道这个女孩的身高、收入、学历等,但无法从这些数据中获知这个女孩是不是适合自己、她的性格如何,这时我们就需要从一些日常行为的数据进行推断,一种是主观的推断,我觉得、我估计、我认为,不可能在一起另一种是客观 主观的推断,比如整合微博数据(可以知道微博的内容、发送行为、关注的领域等),和自己的行为进行数据挖掘,来看看数据内在的匹配度有多高,这时候,你会说,我们在一起的概率有90%,从而建立信心,开始行动.....当然统计学上讲,100%的概率都未必发生,0%的概率都未必不发生,这只是小概率事件,不要让这个成为你脱单的绊脚石。
最后,思考的方式不同,一般来讲,数据分析是根据客观的数据进行不断的验证和假设,而数据挖掘是没有假设的,但你也要根据模型的输出给出你评判的标准。我们经常做分析的时候,数据分析需要的思维性更强一些,更多是运用结构化、MECE的思考方式,类似程序中的IF else分析框架(假设) 客观问题(数据分析)=结论(主观判断)而数据挖掘大多数是大而全,多而精,数据越多模型越可能精确,变量越多,数据之间的关系越明确什么变量都要,先从模型的意义上选变量(大而全,多而精),之后根据变量的相关系程度、替代关系、重要性等几个方面去筛选,最后全扔到模型里面,最后从模型的参数和解读的意义来判断这种方式合不合理。
以上就是我认为的三个区别,其实不论数据分析还是数据挖掘,能抓住老鼠的就是好猫,真的没必要纠结他们之前的区别,难道你给领导汇报时,第一部分是数据分析得出,第二部分是数据挖掘得出?他们只关注你分析的逻辑、呈现的方式。下来说说我理解的大数据,常常有人问我,感觉现在的大数据分析培训和讲解,都是把之前的各类数据分析资料,前面加了了“大”,然后变成了大数据分析培训....,其实想一想这位兄弟说的真TM对。
大数据对我的感觉并不是数据量大,也不是数据复杂,这些都可以用工具和技术去处理,而是它可以做到千人千面,而且是实时判断规则例如定向广告的推送,就是大数据,它根据你以往的浏览行为,可以准确的给你推相关的信息,基本做到了你一个人就是一个数据库,而不是一条数据。但我们所作的数据分析更多是针对群体的,而非针对每个个人。
要做到千人前面,侵犯你隐私数据是避免不了的,或多或少都有知道一些,而做到千人千面的大数据不就是要更多的了解你,引导你、杀你、留住你吗?为了达到这类手段,就要不断的去完善自家数据,甚至要购买数据来360度的让你在数据下裸奔,从而解决数据孤岛的问题所以大数据时代也显露出了各类问题,数据的隐私、数据杀熟、数据孤岛等,这也许就是我们目前看到大数据分析更看重的是技术、手段的原因,它其实是一门纯技术,但有时候确实可能需要艺术。
大数据的来源有几种?不同来源的数据各有什么特点?
今天的大数据来源是,除了专业研究机构产生的大量数据(CERN的离子碰撞器每秒产生高达40TB的数据),与业务运营相关的大数据可分为四个来源:1.越来越多的机器配备了持续测量和报告操作条件的设备。几年前,跟踪遥测发动机的运行仅限于价值数百万美元的航天飞机。现在,汽车制造商已在其车辆中配备了监视器,以持续提供车辆机械系统的整体运行。
一旦数据可用,公司将尽一切可能从中获利。这些机器传感数据属于大数据范围。2.计算机生成的数据可能包含有关互联网和其他用户的行为和行为的有趣信息,提供对其愿望和需求的潜在有用的理解。3.用户自己生成的数据/信息。人们通过电子邮件,短信,微博等生成的文本信息。4.迄今为止最大的数据是音频,视频和符号数据。
这些数据结构松散且数量庞大,因此难以提取有意义的结论和有用的信息。大数据改变了公司在所有行业中的运作方式。 从了解市场到如何挖掘商业信息,大数据可以看到每一个变化。 致力于收集和分析大数据的行业已经形成,并对现有公司产生了深远的影响。 根据调查,10%的公司认为,在过去五年中,大数据彻底改变了他们的运营方式。