在分析空间中,有没有什么充满充满希望,炒作,性感和可能令人敬畏的东西,"big data?" I don't think so.
那么什么是大数据呢?没有人知道。
按照我的解释,大数据是结构化和非结构化数据的大型数据库的集合。数据来源包括传统的(现在认为是微不足道的)来源,例如公司 企业资源计划 / 客户关系管理 系统和非传统(大量)资源,例如来自每个人或机械传感器的每个技术ping,整个Internet上每个人的所有网络行为,来自医院或大气等模拟源的越来越多的数字数据,以及(好主!)发推文。
太多了吧?
由于大量的大数据讨论都集中在zettabytes数据的承诺上,因此大数据也往往与 大规模并行计算,出色的存储系统," 云 ," Hadoop的 和 MapReduce 和other such deeply technical delights.
这就解释了为什么这么多大数据讨论来自Oracle,IBM,Microsoft,SAP和其他供应商。而且从实践者那里得到的还不是很多。
我相信大数据的前景以及由此产生的深刻见解。但这不足为奇。一直追溯到2007年,我一直在宣扬远离"small data"点击流数据的世界"bigger data"使用多个数据源在网络上做出更明智的决策的世界。点击流+定性数据+严格的结果统计分析+竞争情报来源的数据深度挖掘+快速实验+更多。
这里's the "更大的网络分析数据" picture from 2007… 多样性!

我们今天要处理的大数据使2007年的情况黯然失色。我们拥有更多类型的数据,变得越来越复杂,分布在多个存在中,而我们剩下的任务是解析出TB级的噪声以获得兆字节的信号。
最后一部分是我喜欢关注的内容,我担心的内容,我认为每个人都应该关注的内容。我们拥有大数据真是太好了。更大的是,我们在大数据方面拥有如此惊人的承诺。令人发指的是,几乎没有人知道在推动实际业务价值的背景下该怎么做。
因此,我对大数据的兴趣与zettabytes或Hadoop或非结构化变量或其中之一无关。 n 似乎主导大数据对话的技术性事物。
我的兴趣深深地,热情地植根于试图弄清楚如何将大数据一路带到银行(或世界和平)。如何寻找见解?如何组织将使用此数据的组织,以确保它们从中获得及时的价值?如何采取行动?如何找到能够引发不同思维方式的框架,所以我们不'不会犯我们在小数据领域如此辉煌的错误?
如果我们不这样做't answer all those 怎么样 大数据 will be a big disappointment.
避免大失所望 怎么样 当我准备主题演讲时 Strata 2012大数据会议 。我的目标是花15分钟在TED上讲我的观点,以表达我的观点,为什么推动大行动对于大数据来说是当务之急。
多亏了Strata联合主席,这是一个巨大的挑战 埃德·邓比尔 和阿利斯泰尔 Croll。在这篇文章中,我想与您分享结果。
I'd将我的主题演讲分为三大部分:
00:00– 01:15 介绍。我最喜欢的数据来自肯尼亚农民Zack Matere。
01:15 – 04:05 第1部分。当前存在缺陷的数据组织结构,其挑战以及新的最佳组织结构,以真正为大数据带来大动作。
04:05 – 06:20 第2部分。受Donald Rumsfeld启发,一个框架,供大数据供应商在创建解决方案时考虑,以及大数据分析师应实际参与的独特空间(仅适用于"unknown unknowns!").
06:20– 10:25 第3A部分。我的第一个战术示例:如何 神奇地自动 解决了拥有数百万行数据的问题,并且不知道如何找到可能对业务产生巨大影响的15个有价值的行。借力 有趣!
10:25– 15:00 第3B部分。我的第二个战略示例:利用杠杆 预测,挖掘,关联 从数据采集转移到更多 神奇地自动, 在数据中找到真正未知的趋势 和 确定那些趋势的因果关系,以便我们能够以轻快的速度从数据转移到行动。
这里's the keynote…
[你也可以看这个 YouTube上的视频。您'也欢迎您喜欢“赞”,“分享”,“ Tweet”,“ Facebook”,也可以在YouTube上为其+1。]
我不希望鼓励您复制/粘贴概述的策略,或使用所示的工具。
我希望只是激发您对组织设计有所不同的想法,共享一个框架来影响您的分析重点,并找到切实可行的解决方案类型,这些类型将真正激发所有这些大数据的盈利能力。
欢迎您通过评论对视频和解决方案提出反馈和想法。还请与大数据分享您的经验。无论您有多大的成功'曾经会启发我们所有人。
为主题演讲做准备还让我考虑了大数据的所有含义以及我自己在创建一流的决策支持系统方面的悠久职业。数据库已经从我的软盘(真实的故事)转移到了无限的存储云,但是,令人惊讶的是,一些最大的挑战仍然是一样的。
如此大的数据革命者…
应控制大数据存在的六个规则。
这里 are some rules from my experience in the small data world that I'我们相信,这也适用于大数据世界,也许更是如此。在进行大数据之旅时,'如果您考虑以下宝贵的人生课程,将会取得更大的成功:
1.唐'购买大数据的炒作并扔掉数百万美元。但是不要't stand still.
将您的决策预算的15%分配给一个真正非常聪明的人(忍者!好吧,数据科学家),让该人可以自由地在云中进行实验,为您的公司提供大数据。
很便宜你可以做 脏数据仓库 真是太快了。您可以找到所有丑陋的疣和问题。开始学习时,您可以变得更加聪明 主流 大数据 into your company, while preserving the data awesomeness that already exists in your company.
至少在最初阶段,将大数据工作安排为 失败时更快地失败。唐'在32个月内构建了最大,最糟糕的大数据环境,却意识到这是您最大,最糟糕的错误。
2.大思考应该解决什么大数据至关重要。
我可以'别想我们生活中的其他任何时刻,我们可以无休止地在数据的海洋中畅游,而无所作为。大数据就是那个世界。如果你不这样做'不知道你要去哪里,你会到达那里,你'会很痛苦的(如果您的公司还没有解雇您,在这种情况下,您'会很悲惨和悲伤)。
I've提倡利用诸如 数字营销& Measurement Model在网络环境中,以确保我们进行的分析深入而有力地基于'对业务很重要。即使您的高级管理层粗略地定义了该页面,您也必须拥有该页面。有些东西。
如果您的管理层拒绝或没有足够的远见卓识为您提供甚至是基本的出发点,那么请自己建立一个。它所要做的只是一点业务分析。这里's my post: 找到分析目的的五个步骤.
当您访问所有这些数据时,发现的答案将是令人惊讶的,您提供的见解将是出色的,并且您对业务的影响将是巨大的。但这只有在有一个模型可以定义您的大数据冒险目标时才能发生。
3. The 数据成功的10/90规则 仍然成立。
您每100美元可用于做出明智决策的投资,10美元可用于工具和供应商服务的投资,以及90美元可用于大智慧的投资(又名“人”,又名“分析忍者”,也就是您!)。
我承认Oracle和IBM以及SAS和固态驱动器非常昂贵。投资大脑的九倍似乎太过惊人了。也许是。让10/90规则成为简单地对人员进行过度投资(过度投资)的灵感,因为没有这种投资,大数据绝对绝对会给您的公司带来巨大的失望。
计算机和人工智能根本还不存在。因此,您的BFF是自然智慧。 :)
4.拍摄正确的时间数据, 非实时数据.
实时数据几乎是不可思议的,因为即使是最小的决策,您也可以 '我们将必须先做大量分析(5小时),然后将其呈现给您的上级(1小时),后者将添加两个项目符号并将其发送给一组人员(20小时),他们将依次辩论优先级以及错误的数据量(16天),但最终达成协议,因为做出决定的截止日期是7天前(20秒),然后将数据发送到 大老板 who'我将只阅读执行摘要的第一部分(三天),并确定数据正在告诉她与她一直知道的作品相反的东西,而她'会根据自己的直觉(5秒)做出决定,并会采取一些行动(14天)。
总计这些数字。实时数据具有任何实际价值吗?
好的,那是最重要的。但是每个公司都有复杂的决策结构,这很耗时,因此无法实时做出反应。如果你可以的话'不能实时做出反应,为什么需要实时数据?
了解何时是您组织中数据的正确时间。拍摄与数据传递相匹配的系统和流程(更好, 见解 )到该时间范围。您'会减轻压力。您'将重点放在重要的重要战略事务上(实时数据确实擅长促使最好的公司做战术上愚蠢的事情)。你呢'会节省很多钱,因为实时的一切真的很昂贵!
这里'一种检查您是否真的需要实时数据的方法:从数据接收到采取行动,是否必须涉及人员?如果答案是肯定的,那你就不要'不需要实时数据,就需要正确的时间数据。如果答案是否定的(例如,您拥有由情报/规则驱动的自动化系统),则您需要实时数据。
5. "Data quality sucks, 克服它."
那是我自2006年6月以来的职位的标题。've come. :)
我的帖子的核心意图是,网络上的数据永远不会达到95%的整洁度,并且会有很大的漏洞,并且在某些区域是稀疏的。我们的目标应该是尽可能人性化地收集,处理和存储数据,但是此后,我们应该继续使用这些数据,因为与神相比,我们将拥有更多有关网络的数据'祝福其他任何渠道。让'不会成为那种继续浪费时间去追求质量,而不是不断减少回报的人。让'不会成为持久的javascript黑客和sprop变量调整者,而现在却要从数据中传递价值。
在大数据方面,所有这些乘以一百万倍。我们将有 脏数据 。我们将不知道该如何处理视频或语音文字或(omg!)社交媒体超载。我们将缺少主键。我们将缺少干净的元数据(有时甚至是任何元数据!)。我们将意识到情感分析的底线。我们将为痛苦的业务流程修正而痛苦,这些修正通常会产生良好的数据。
然而,我们正站在一座黄金山上。
在收集,处理和存储尽可能干净的数据方面,请尽力而为。知道何时转移到数据分析。开始做决定。首先制造小东西。 (请记住,即使它们将是革命性的,因为这些数据集永远不会融合在一起!)随着时间的推移,请制作更大的数据集,因为您了解所处理内容的局限性。
这里'death一息:大数据实施项目中,分析师的第一次接触将在该项目最初构思后的18个月内到来。您会发现,在18个月内,世界将会发生如此巨大的变化,以至于您没有发现任何可能的变化'ed for不再相关。
聪明点。快速移动。随着时间的流逝,慢慢变得像上帝一样。
6. 消除噪声甚至比发现信号更重要 .
这可能会引起一些争议。但是和我在一起。
迄今为止,在历史数据分析中,我们查询的目的一直是试图在数据中的所有噪声中找到信号。效果很好。我们有干净的业务问题。数据量较小,数据集更完整,我们经常知道我们在寻找什么。已知已知和未知未知。 (请参见上面的视频。)
对于大数据,了解要忽略的内容变得更加重要。您必须知道如何在完全不同的巨大数据集中分离出所有噪声,甚至有很大的机会开始寻找信号。
这是惊人的,但却是事实。如果您不知道要忽略什么,那么您'我们将永远没有机会关注您应该注意的内容。
您的业务精明。您的直觉分析能力。调整算法以首先忽略,然后寻找见解。那将产生重大影响。
革命者遵循的六个简单规则可以确保革命性的成功。
注意,它们与硬件或Hadoop无关。一个重要的原因是我'因为要解决首席执行官而不是首席信息官/首席技术官的问题,所以这是一个观点问题。第二个(主要)原因是我们目前确实面临一些大数据技术挑战,但是决定大数据是否会带来大价值的事情与技术无关。它们与上面的六个规则有关。
如果你 are really thinking big data value, think CEO and not CIO/CTO. It will dramatically change the focus of your work, in a good way.
一如既往's your turn now.
您发现主题演讲很有价值吗?您发现该框架有价值吗?它会促使您改变对大数据的态度吗?关于 规则 above …以上是您最喜欢的一条规则吗?是否应该有一个本来应该丢失的东西?您将从经验中分享的最大的大数据建议是什么?
请通过评论分享您的智慧,建议和反馈。
谢谢。
一如既往,精彩的帖子。去年在一次贸易展览会上,我与Intersect360的Addison Snell进行了类似的讨论,讨论了其中一些问题。
作为一个技术极客,当涉及到大数据时,我会非常专心于所有硬件和软件应用程序细节。它'很容易迷失在所有这些方面。
作为营销人员,我必须记住要寻找价值,这些信息为什么以及如何有用。
但是有时候'当您意识到我们首先拥有这些数据是多么令人惊讶时,很难专注于这一点。它'非常令人敬畏。
感谢您抽出宝贵的时间分享!
未知的领域未知。引入大数据集通常需要您做一些假设,并消除不同数据之间的不一致。
您输入的数据越多,可能出现的噪音就越大,结果,人们可能会有更多机会误解数据或以不同的方式解释数据以支持相反的观点。
就是说,您是否觉得大数据比较小,更连续的数据集更容易使人们误入歧途?您如何控制差异?
乔希: 让 me try to tease out some of the threads in your valuable comment…
首先,任何数据都可能导致误入歧途。我不'认为这没有大数据或小数据。次优思考,次优结果。 :)
其次,您是正确的,我们的市场营销,销售,财务,人力资源部门以及我们的分析师将需要更高的数据素养。 (一世'd在视频开头提到了为什么如此重要。)许多组织还没有出现。现在就开始捍卫僵尸并开始进化的时候!
最后,连接更多的数据集将导致额外的连接性和解释挑战,但是如果没有它们,就没有多汁的水果可吃,也就不会取得巨大的进步。我们可以't, and likely won't,只保留一个较小的数据集或一个数据源,因为这很可能意味着我们会停留在做出较小甚至不完整的决策上。
一如既往地感谢您分享您的反馈,我非常感谢。
阿维纳什
那是一个很棒的帖子和演示文稿Avinash。这让我想起了彼得·费德(Peter Fader)所说的话 一个采访 :
阿维纳什
很棒的帖子!我特别喜欢两段:
1) "Let'不会成为那种继续浪费时间去追求质量,而不是不断减少回报的人。让'不会成为持久的javascript黑客和sprop变量调整者,而现在却要从数据中传递价值。"
拥有如此多的可用数据,这是一个持续的斗争。这句话有个共同点:"你的所作所为给你更多的定义'做,而不是做事。"它带来了我喜欢的另一个见解:
2) "如果您不知道要忽略什么,那么您'我们将永远没有机会关注您应该注意的内容。"
问题还在于您要承担的责任与您所知道要承担的责任!它与您的老板/ CIO / CEO认为您应该做的事情相符吗?通常不是。这种不和谐就像令人讨厌的视觉干扰一样,使您更难以反映和发现您知道的那些块金正好埋在表面之下!
感谢您的写作和分享,我总能从中受益匪浅。现在看视频….
克雷格
您在第6点上非常正确。
您必须拥有一个框架,并且有许多出色的工具可以帮助您摆脱六西格玛(Six Sigma)流程改进型工具带来的噪音,而不再是计算关系值(例如信息值)或相关性(原理成分分析)的统计建模工具。
的most important thing is to make the business link between the data-driven insight and the marketing action.
这是一个非常严肃的帖子,因此我可以'拒绝分享来自@kimwatkins的这张照片…
大数据 is going to be big. It is important to start them small! :)
I'我不确定这对您的孩子是否最合适,但是有消息说,开始学习从未为时过早。
谢谢金!
阿维纳什
我在2009年为一家目录公司工作,'attempting'将一些在线数据集成到我们的营销数据库中。上面提到的六个规则都是很好的指针–特别是回望。
Omniture提供了相当多的原始数据列表,可以'dumped'在他们的系统之外–但是我们从非常小的/选择性的数据点开始。我们已经有'经营方式'本身。作为一家目录公司,我们对这将如何影响我们的比赛特别感兴趣。有这个'focused'目标使项目得以推进–没有陷入一个又一个决策层的巨大漩涡中。
在项目开始后不久我就离开了公司,所以不确定这些好意如何发挥作用。但是,我感到非常重要的是,我们要有好人从事这个项目,他们懂得咬不动,甚至不能咀嚼。
海事组织,决定如何/如何利用调查结果始终是一个巨大的挑战。尤其是在企业级,变革不是'些需要的东西'overnight'. It can…还有很多情况下…but it just doesn't :)
游客: 我通常会回复在此博客上收到的每条评论,但您并未留下真实的电子邮件地址。但我要公开感谢您抽出宝贵时间在上述评论中分享您的宝贵经验。
倾听那些'我去过那里,试图改变世界。 :)
谢谢,
阿维纳什。
我必须承认对突然的炒作感到惊讶"Big data"当我们很多人在谈论–使用和推动变化–"big data"这么多年了区别可能是我们没有'它没有醒目的标题。说多渠道数据或集成数据源可能不像"beeg beeg data!"
恕我直言,整个推动仍需要继续解决重要的业务问题,提高盈利能力以及使用数据来推动决策。大数据只是完成工作的原材料。推动变化的不是大数据的突然可用性–mainly because it's not that sudden–而是人们是否可以访问有助于他们做出决定的信息。
我的2美分–很想听听其他人的想法,这些人已经进入数据战场多年了。
Urvashi: 从Access :)中的0.6 mb数据库入手,到Sybase在数百个工作中发展到现在在云中疯狂的数量,我已经投入了很多精力,我完全可以理解您的观点。
好像我们'一直在做这件事。
我确实认为里面有很多新东西"big data."我们处理的数据类型。分析的复杂性。我们用于存储数据(并将其丢弃)的方法。我们可以回答的问题类型,我们以前可能从未回答过的问题。
我们在IT和业务方面所做的一切都使我们做好了充分利用这一新机会的准备,即使我们可怕的敌人(本文中概述了六个)似乎是我们旧世界的BFF。 :)
非常感谢您添加您的观点。
阿维纳什。
@Urvashi
"…when so many of us have been talking about–使用和推动变化–"big data" for so many years…"
这当然是事实。恕我直言,值得注意的主要含义之一是'time stamp'。从直接邮件的角度来看,给您的广告系列加上时间戳非常困难–除非您派出小妖精缠住邮递员!!!
尤其是当'traditional'市场营销数据分析原为'predicting'广告活动的可能曲线。有了在线,就没有了'prediction'因为广告活动显然带有时间戳(很好…在大多数情况下是:P)–即ESP数据,来自分析数据仓库的原始数据转储等。
虽然实时数据可能很强大(IMO don'认为我们大多数人还没有在资源/带宽方面明智地利用这一点),时间戳的可用性允许通过整合到'traditional'营销数据库。从一个'multichannel'从直销的角度来看,恕我直言,这已经是一个重大变化。
阿维纳什
除了在视频上捕捉到热情洋溢的表现外,还感谢大数据问题的总结。
我确实引起了两点共鸣:正确的时间数据和信号/噪声问题。
实时反应性数据的使用在战术上是非常有益和有益的,但是很少(如果有的话)确实能够提供超出其操作范围的深刻见解。弹出下一本推荐的书或歌曲很容易,但是您的组织并没有真正从中学到任何东西。有价值的分析需要花费更多的时间来创建,花费更多的时间进行消化和内部化以及花费更多的时间来执行。不要将业务规则或简单模式匹配与分析混淆。
大数据的前景是,大量的小数据在内部挣扎着释放。我们现在可以收集的大多数极其细粒度的数据几乎没有信息价值。能够消除尽可能多的噪音是解放这些真相的秘诀。有时,我认为我们现在实际上已经拥有了与几年前一样数量的重要数据,只是现在我们用更多的垃圾数据包围了它。
精彩的帖子,有趣的视频。
谢谢
理查德
如何打开加权排序?我读过'不适用于所有Google Analytics(分析)帐户。
我试图通过视频设置您的报告,但加权排序选项没有出现。即使单击跳出率排序后。
另外,我去了GA帮忙,做了那里说的话,但仍然没有出现。
我的数据集太小了吗?
杰夫: 加权排序(如导出为pdf等)目前仅在Google Analytics(分析)v4中可用。 Google小组正在将所有内容缓慢发布到v5中,因此应在不久的将来发布。
如果你 want to play with the feature just click on the link called "Old Version" in the header.
这里'的博客文章,概述了如何在您想了解更多信息的情况下使用该功能:
~ Web分析中的哑表结尾!您好:加权排序
阿维纳什。
谢谢阿维纳什!
I'我在分析中使用加权排序。一世'我遵循您关于“大约会”的建议!
恭喜您发帖!
#6打回家–随着不断增长的数据海洋(也许是数据的宇宙?)不断增长,我们必须能够专注于重要的细分市场,然后对难以捉摸的信号归零。
一如既往的好帖子Avinash!
在视频的第1部分中,您将很好地介绍在开始大数据之旅之前解决组织结构的问题。我谦虚地建议一个规则0:
0.确保每个人都有权做出循证决策
粉碎需要将决策提交给中央命令与控制机构的任何过程。如果这意味着粉碎中央指挥和控制权,那么现在抓住您的干草叉。
如果你'只是数据专家和其他人来决定,现在就离开那里!没有层次结构问题的新贵公司将比您的公司更具竞争力。
阿维纳什(Avinash):
您的主题演讲总是令人发指,对我来说非常有趣。马斯洛(Maslow)非常感谢您与更高需求相关的语言。有时,我认为应该将您的见解和策略教给刚起步的年轻人和新手。恰恰是因为太多的河马会沉迷于他们过去的自我信仰世界中。
在教育上可以发现哪些东西可以教育新手和新手以及我们中的一些老年人大规模地破坏和繁荣?
我知道您有创业公司Market Motive;但是您也可以提出一些教育计划,这些计划可以在您喜欢或曾经是市场动机的愿景中重塑未来的思想,以回应您对所学内容不足的感觉。
抢: 感谢您的客气话,谢谢。
Market Motive最明确的成立是因为我们认为那里明显缺乏结构化的课程表,无法帮助培养当代分析师–从分析知识的角度和最佳思维过程的角度来看。我每个季度只有一半笑话告诉我的学生:"如果在本课程结束时'如果您以为您知道可以使用这些数据,但是却不知道如何对它应用正确的思维模型,那我将失败!" :)
当然,生活是如何大规模颠覆和繁荣的伟大老师。一个人只需要有足够的勇气站起来,并偶尔将其斩首。一世've总是发现,要改变公司高层的想法,这些策略非常有效:
1.我必须愿意做所有必要的努力来证明产品的价值。"new world."通常我们只是去传福音。我认为,畅所欲言,展示一个粗糙的原型,深入的替代分析,是很有价值的。因为是具体的。
2.我喜欢从客户的角度来构架事物。"这是我们可以提供的壮丽喜悦。" "这就是我们将革新他们经验的方式。" "这就是我们提供的好处将带来更多荣耀的原因。"
3.竞争对手。我毫不动摇地利用直接竞争对手的当前/即将取得的成功来具体说明为什么必须进行更改。没有首席执行官希望他们的自我实现这一点。 :)
希望这会有所帮助。
阿维纳什。
阿维纳什
一如既往,喜欢您的帖子和主题演讲。我也喜欢你的规则–我真正感到人们应该注意的两个是"拍摄正确的时间数据,而不是实时数据" and "消除噪声甚至比发现信号更重要 "。尽管应该遵守所有规则,但我认为即使只关注这两个规则,也可以为公司提供大量可行的见解,从而增强其底线。 (特别是"noise"规则,有时将噪声分析为'signal'可以提供关于事件发生的原因和方式的精彩见解)。
还有更多想法。我知道有关大数据的宣传很多,包括'defining'它以4V(体积,速度,方差和可变性)表示。在我看来,大数据与数量无关(尽管这是一个因素)。一个,由摩尔'根据法律,随着我们计算能力的提高,今天的大数据可能在几年后不再是大数据。我心中的音量是副产品–复杂性的一部分来自于源数量的增加,以及如何成倍地增加来自这些源数据的交互或集成方式的数量。
是否有大数据,我认为关键是我们打算如何使用来自各种渠道/来源的数据来推动我们的业务愿景&目标(以及为什么我喜欢您的帖子)&谈论)。仅仅因为数据可用并不一定总是意味着必须使用它(imo)—试图加强与数据的关系通常会偏离分析的目的。[我知道每个人都可能不同意我的观点:-)]。我之所以这样说是因为,如果不查看非结构化数据,文本数据等,那么很多人就会感到被排斥在外。—我对他们的第一个问题一直是"Is that data &根据您的业务远景和目标对必要的数据进行分析?".
最后,我喜欢你的报价。这是沃达丰(Vodafone)首席执行官盖伊·劳伦斯(Guy Laurence)另一个我喜欢的数据,“数据本身无能为力” :-)
问候,
内德
"拍摄正确的时间数据,而不是实时数据"例子说明,这是一个很好的信息,尤其是,这是一个很大的现实。
同样是10/90规则,这是非常明显的,但很少有固定的规则'的确知道'是与众不同的人,而不是工具或数据。
也很高兴收到您的最新视频,我很期待在youtube上。
问候
兰詹·耶拿(Ranjan Jena)
优秀的东西。
不过,我有一条评论。您'有点太难了"realtime."我认为实时数据在探索中具有一定作用:交互性。
数据科学以两种主要方式发生。那里'探索性假设分析(请考虑将列和行拖到Excel中的数据透视表中以查找"unknown unknowns"出现。)'报告,这里是结果分析,通常是进入董事会的结果。
如果董事会可以'可以实时对报告做出反应-根据定义,它可以't,除非董事会是一堆软件,而不是基于肉体,容易出错的高管和HIPPO-'无需实时数据。所有要做的就是让人们感到自己'当他们应该建立业务时,重新乘坐战斗机。
但是,加快人机界面速度将大大提高分析师的性能和生产率。考虑在玩耍时更改数据透视表"what if."正如您所指出的那样,预算的90%应该分配给聪明的人。如果您要使这些人尽可能高效和有效率,那么至关重要'要从这项投资中获得一些收益。每当贵重的分析师观看沙漏或旋转的沙滩球,或者在报告运行时去喝咖啡时,您都会're squandering her.
实时报告不是'除了作为错误检测的早期预警系统(今天销售下降很多,所以网站可能被打断)以外,它很有用。但是实时交互比以往任何时候都更加重要,因为数据是非结构化的,分析人员's time is precious.
很棒的主题演讲!恭喜啦…
的focus on people rather than tools and the focus on actionable insight is always important.
我只需要添加一件事:根据我的经验,实时分析很重要。一些企业严重依赖实时分析。'老派大众媒体'例如,尝试在线获取最新的嗡嗡声,并将其包含在他们的报纸或电视节目中。
你知道这总是取决于…
乌尔里希(Ulrich): 我想完全强调您的最后一点:这始终取决于!
当然,在某些情况下,实时可能会有价值。特别是,正如我提到的,如果涉及自动化。你的情况're describing with "old school media"是一个很好的工具,很多100%自动化的工具,具有非常精巧的编辑风格,实时决策非常有效。
另一个不同的例子是,像Google或Bing这样的引擎将如何使用当前发布的数百种信号和信息,并能够显示最相关的答案。
但是在几乎所有其他情况下'我们并没有看到公司对实时数据做很多事情的特权(即使在投入数百万美元来获取数据后也是如此)–拥有它感觉很好,很少有生意可做)。
阿维纳什
你好阿维纳什,
非常感谢您的回复。非常感谢您的反馈。我很幸运能看到大量案例,这些案例表明公司利用从实时数据中收集到的洞察力做出了杰出的贡献。
但是你是对的–这种情况很少发生。人们常常把钱花在无效的项目上。
的'有数据感觉很好' –问题是一个普遍的问题,它很昂贵,可以通过选择合适的人来解决。
@Alistair–我听到您对想要实时数据的潜在想法,并同意可以为它带来某些好处(如果正确处理并有正确的理由)。
但是,(imo)我们应该将工具,服务器和人机界面的效率与高速,高频数据输入的需求区分开来。无论数据是实时的还是不实时的,如果分析人员没有配备正确的工具,或者如果处理能力没有足够的规模,那么必定会有很多'wastage'工时,看着沙漏。在此,我完全同意您的看法,即公司/ HIPPO应该确保他们不'不仅要雇用聪明的人才,还要提供合适的环境&使该思维尽其所能的工具。
我诠释Avinash的方式'的规则是,鉴于您当前的业务环境,获取实时数据仍然值得吗?我再次同意您的看法,如果实时数据很容易获得或以最小的努力获得,并且没有处理约束,那么是的,分析师肯定可以进行探索性分析,甚至可以将这些数据采用一些很酷的方法来查看是否任何见解都可以得到(但问题仍然存在–这些见识可以或将在多久之前用于任何决策?)。
但是,如果无法即时获得实时数据,或者需要花费大量精力才能提供实时数据 &在大多数情况下,我处理过Avinash可能并不值得。主要是因为他提到的原因。我们可以对实时数据进行所有分析,但是公司(尤其是大型公司)的结构并不构成实时决策。
没有[附近]的实时数据'real-time'决策能力没有ROI。洞察力本身的价值远不及'actionable insights'已采取行动:-)
你好阿维纳什。
我发现您的帖子挺有趣的。我写了一篇文章,表面上可能与您的观点不符(请参阅网站框中的链接)。但是,经过更深入的思考,我认为我们同意以下几点。
几件事
1.实时数据–正如许多其他人在这里指出的那样,它有其用途。考虑所有的电网,发电厂,制造厂,UPS,FEDEX,航空公司,银行,交易平台,交通控制系统等,等等。大量的功能可用于实时数据决策。这不仅仅是控制。当您有来自数千个传感器的数据流时,您提到的需要14天的决策循环必须进行压缩。因此,花一些时间来开发正确的分析/算法,可以获取有关多个参数的原始数据并将其呈现为可操作的见解,具有巨大的价值。在这些情况下通常也有一个地方"historical data"(超过24小时的数据,甚至可以追溯到更远的时间)。那些也可以分析,但是实时数据具有实时价值。
2.通常,当公司知道他们要查找的分析时,他们就会找到它。这是最好的吗?否。合理吗,是的。在过去二十年来的所有进步中,我不'认为任何定义的问题都已得到一定程度的解决。使得经理和执行人员含糊的渴望,因为他们错过了一些重要的东西,而IBM类型的顾问却不愿意这样做。'对这个行业了解不多,但是有很大的希望。
3.我同意你的90/10规则。不幸的是,人为因素被视为不断重复的支出,而大多数软件(甚至是作为服务购买的软件)都被资本化并贬值了。而且,很少或根本没有花力在分析的实际接受者上以学习所提供的工具。态度更像"Bring it to me and I'll eat"。当行业知识和数据分析融合在一起时,数据分析的真正革命将来临。如果外部提供商有兴趣提供解决方案,则不会发生这种情况。它'当工具简化得足以使普通经理和有限时间的执行人员可以进行自己的分析而无需求助于忍者或数据漏洞时,就会发生这种情况。的"analyst"角色必须消亡。对于软件,我将您的论文重述为10%,对于不正确的观点,应重述为90%"data guru",但要培训实际的校长以发现自己的见解。区别就像是进行导游游还是自己使用GPS探索。
4.最后但并非最不重要的一点是,必须做出决定和建议"defensibly"。任何不了解这一点的人都不知道现实世界是如何工作的。顾问可以根据建议提出建议,然后离开,但是对于在组织工作的人员来说,利益攸关,尤其是不同。具有重大意义的决策。因此,元数据和数据质量对于决策至关重要。当缺乏这些信息时,在组织政治环境中,那些反对您的人可以轻松得出相反的结论,或者只是简单地提取一堆错误的数据而去"you'重新基于此做出决定????"。基于不稳定数据的数据分析可能会产生见解,但不能做出决策。
Deja Vu: 我也认为我们之间有广泛的共识。
1.我'我不是说实时完全没有用。一世'有人说,投资于消灭人类是一个值得的事业,这也许是实现实时工作的唯一途径。
2.我'm sorry I don'认为我完全理解您在这里说的话。但我确实同意,雇用IBM顾问可能不是正确的答案。 :)
3.阿们!
我不'认为分析师角色将消失。我认为这将摆脱分析师的关注"荣耀的数据推送器"实际进行大型战略艰苦分析以推动大型战略发展"unknown unknown" hard decisions.
4. GIGO仍然很统治。但是,为了避免这种情况,我们必须在寻求的数据纯度与决策的及时性之间取得平衡。这不是一个简单的电话,但至关重要的是,决策者必须善于随时间推移进行这些电话。
阿维纳什
嗨,阿维纳什,
感谢您鼓励人们花钱在有才华的人身上。
曾经是'middle manager'过去,让高层管理人员真正理解这一点确实很困难。然后他们总是对我们的中层管理者感到生气,因为好人正在辞职,我们'为工具付出大量金钱,为什么可以'我们无法获得更好的分析吗?!?!因为我'我花所有的时间训练新员工,使他们最终可以自己开始经营,在其他地方获得双倍或三倍的报酬,辞职,然后这一循环继续进行。
工具仅与使用工具的人一样好。
谢谢!
我最近发现了您的博客,我是即时粉丝!我完全可以认为消除噪声比找到信号更重要。作为我自己从事高级分析的从业者,我也被技术在该领域抢占的头脑所淹没,几乎没有成功的故事(如果有的话)。
我有几个问题/意见,希望收到您的来信:
1.数据挖掘技术是否有任何进步使自己特别适合大数据?所有关于统计意义的讨论都变得有些争议,因为"data-mining"开始处理非常大(按当时的标准)的样本量。我们是否要告别其他封闭的分析技术?
2.您认为大数据成功的最大可能性是什么?是否有弱者可能会与球并驾齐驱—例如制造,物流等
3.您是否知道任何关于大数据的成功案例,无论成功与否(无论大小)(无双关语)。
Mukul: 快速解答您的问题….
1.数据挖掘技术日新月异。使用人工智能是最酷的进步。一世'我对眼前的冷静感到非常乐观。
2.无处不在。我不'认为我会随机选择一个行业(主要是因为我只知道我所知道的)。如果可用的令人难以置信的人类技能,独特的机会与管理远景之间有交叉点,那么就有巨大的机会来创造价值。
3.随机前往任何大数据供应商,或进行Google查询,然后'我们会发现他们为许多成功案例铺垫。带着一小粒盐把它们带走,寻找灵感。
阿维纳什。
最令人耳目一新的读物,包括随后的评论。
实时地,是否对来自无数种来源的处理量做出了这样的假设,它们的种类繁多,速度更快,最终落入决策者的掌心,从那片海洋中饮,仿佛吞噬了一切?
实时也可能与分析有关'auto magically'触发其他系统或在流中确定访问者是否应查看A页或B页或Z31页。实时可能是依赖于流内处理或内存计算的亚秒级响应,也可能是减少需要花费数周甚至数小时才能完成的业务任务,从而改变了基本业务模型以便能够提供服务在同一工作日回复。您知道这一点。
斯里达: 我对实时的看法不包括任何较小的处理,存储,而且,报告实时问题可能很疯狂。我们拥有更大,更糟糕的系统,每天都能够实时筛选数百万行。
数据收集,存储和处理不再是问题。
挑战在于时间/流程/官僚/人/乞讨之间"look here's some data" to "好的,用洞察力做x" to "done, it's implemented."
正如我在文章中提到的,正如您在上文中提到的,如果您可以自动执行以下步骤"看,见解x,行动"通过消除人类,您可以处理大量实时数据。
还请看 阿利斯泰尔's wonderful comment 在这个线程上。我同意他的宝贵观点。
阿维纳什。
你是上师!认真!我完全同意您的主要意见,即系统>human>think-think>sit a bit>也许做/做点别的事情。这是实时的敌人,从字面上讲浪费时间。谢谢你指出 阿利斯泰尔's comment。正确地强调了浪费分析师大量时间筛选非结构化数据的重要性,这是大数据的一个方面。
首先,我应该更清楚地暗示实时与'on-demand.'除了明显的用例(如系统触发的警报)外,例如Splunk的超级工作人员正在做的事情,我指的是潜在的/潜意识的变化,当业务流程(事务,工作流)可能由于T +的处理速度更快而发生得更快时, 2可能是T + 1。
在我公司当前正在使用的系统中,需要验证3亿多个数字中的实体。我们将验证过程从近半天缩短了,报告时间减少到几分钟。这并不像亚秒级的响应时间那样实时,但是它可以改变业务流程以及活动的链接方式。一'real time activity'或整个业务流程中的一堆可能整体上改变业务流程。我对技术过分相信,而技术本身就是非政治性的– refer 兰登·温纳摘录's "鲸鱼和反应堆:在高科技时代寻求极限。除了我的繁荣,技术的影响(阅读'real time processing')可以与商务人士的行为现状脱节,直到几处变化迫使他们以较低的价格和更高的质量提供产品或服务。我不只是一个'real time'粉丝男孩,但是技术专家,希望能带来积极的改变。
很抱歉,当人们继续前进时,我试图引起这场讨论的余烬。阿维纳什,你是我的男人!
阿维纳什
我总是很高兴您的热情和见识。
快速评论–我只是做了一个control + F,'t find the word "creativity" anywhere.
创造力+智力+勤奋将帮助我们在原石中找到钻石,看到其他人所不具备的潜力'并帮助我们兑现大数据的承诺。具有框架的聪明人将在盒子内交付预期的结果。有创造力的人会抓住机会,打开机会! =)
杰森
杰森: 很好的反馈,谢谢。
我对三个要素(C + I + D)表示赞同。也许还有更多可以添加到该列表中(如果我们正在考虑分析师)。在这篇文章中,我强调10/90规则,我想从宏观上强调"big smart brains"针对这个复杂的任务进行部署。
我的假设是,如果那么公司确实雇用他们'会雇用合适的人。但这也许是一个有缺陷的假设。 :)
阿维纳什
在一家以数据为生命线的公司工作,这是AWE INSPIRING。
我立即与一些同事分享了这一点,其中许多人还一直在思考我们如何越来越多地洞察力,从我们日复一日地不断处理的数据中获取有意义的行动。灵感之火。
嗨,阿维纳什,
我是“专业世界”的业余爱好者,正在努力达成协议。您的博客缩小了我看待事物的方式,这是一个完整的范式转换。我欠您的见解。干杯!
问候,
维格涅什
嗨,Avinash,我工作过的公司之一采用以下方法来解决其数据完整性问题:
步骤1)返回到Weblog文件并获取已知用户的活动数据,将数据从Web日志文件中提取到数据库中,然后使用可视化工具从数据库中导入活动数据以进行报告。他们的活动KPI非常独特,特定于行业。
第2步)从分析平台中拉出所有300至350个用户。仅向少数几个分析平台的用户提供登录名,这些用户随后将监视点击流数据,以便为仪表板添加衬里并填补数据漏洞。
我有几个问题:
1)恢复为网志数据是否有意义?
2)切断对公司范围内的分析平台用户的访问权限以建立报告中的数据完整性/统一性是否是明智的决定?
3)我们应该查看哪些数据来获得用户的综合概况?
Vidya:
1.仅因为该数据中有太多垃圾(对于初学者而言,所有正在创建数据的机器人都将被忽略),恢复为网络日志可能没有多大意义。 Weblog数据通常也不包含您将通过javascript驱动的平台(如Adobe或IBM或Google)收集的有价值的业务数据。
2.我相信数据民主。工具处于这样一个阶段,即创建一个支持组织来参与数据收集以满足所有公司用户的需求是不明智的。我的建议是,应授权所有用户执行所需的报告,并且公司的核心分析师应只专注于分析(深入,深入的分析)。
[更多内容: 授权分析忍者?识别数据驱动文化的12个迹象]
3.在这里: 数字仪表盘:战略&战术:最佳做法,技巧,示例
和这里: 智能仪表板模块:具有洞察力的尺寸和最佳度量
祝好运!
阿维纳什。
嗨,阿维纳什,
感谢您提供的这篇好帖子。这对我们真的很有帮助。从真实的应用程序角度,您为我们提供了有关如何使用数据的强大信息。
再次感谢。