有人说的是数据科学家是“21的最性感职称英石世纪。”这几天为什么这是如此要求的位置?简短的答案是,在过去十年中,公司和公司以及您和我的数据都是一种大规模的爆炸。有时我们称之为“大数据”,就像一堆木材,我们想用它建造一些东西。数据科学家是从所有这些数据中理解的人,并弄清楚可以用它完成的东西。

在Alexa,我们的数据团队是从巨大数据集产生强大的可操作分析的Helm。这是这些努力,为人们与网络互动的努力,是可用功能的基础,可通知关键业务策略。对数据科学家的需求如此迅速地增加,麦肯锡预测到2018年,数据科学家对需求提供了50%的差距。这对我们来说很好,但什么是数据科学?我们用这些数据做什么?

什么是数据科学?

一个数据科学家是那个不能停止询问“为什么?”的人的成人版本。他们是那种进入冰淇淋店的人,在他们的锥体上获得五种不同的勺子,因为他们真的需要知道每个人的味道。同样,即使是数据科学家甚至是一个包含许多不同的工作味道的金属标题。我认为这是数据科学家和统计学家或分析师或工程师之间的主要区别。数据科学家正在做一些任务。当然,职称是数据科学家的职称将在特定公司做什么依赖于公司和该人,并且可能看起来更像是那些其他标题,而​​不是所有三个的混合物。对我来说,一个数据科学家是那些做以下任务的人:

1.数据分析
2.建模/统计
3.工程/原型化

这些任务的顺序是有意的,它大致反映了数据科学项目的生命周期。公平,我们应该添加“0。数据清洁“到该列表,因为它可以是数据科学家的最耗时的任务之一。这也是数据科学家的令人难以置信的Litmus测试。无法解析凌乱的CSV的人不会将其作为数据科学家削减)。让我们更详细地查看这些任务。

数据清理

那里有很多数据,但它的大部分都不易于使用格式。数据科学家的工作的这一部分涉及确保数据很好地格式化并符合某些规则。

例如,考虑每行描述快餐特许经营的财务的CSV。可能有城市,州和去年销售的汉堡数量的列。但是,而不是在一个文档中拥有所有这些数据(这太容易了,对右?),它可能会遍布许多不同的文件,需要加入在一起。这样做是在某种意义上很容易。难以确保所产生的组合是有道理的。通常会有一些格式化不一致,并浮动数据集中的某个地方是销售的汉堡数量的行,状态为25,000。数据清洁是关于查找这些打嗝,修复它们,并确保他们将来自动修复。作为一个额外的奖金,此时的所有下游工作都只能与您组装的数据一样好。

数据分析

这是大多数人想到使用Excel的工作,但大幅榨汁。数据科学家通常与在典型电子表格程序中以打开太大的数据集工作,甚至可能太大而无法与单个计算机一起使用。

数据分析是可视化的领域(表是机器人的)。这是您在尝试理解的情况下制作大量数据的地方(绘图也是电子表格在后面滞后的地方)。通过这个过程,数据科学家正试图制作一个故事,以一种方式可以轻松地沟通和容易采取行动的方式解释数据。有时这可能是一个简单的东西,就像弄清楚新用户转换为长期用户时的财产或事件信号,或者更复杂的东西,就像有人慢慢欺骗你的大量金钱ALA办公空间。例如,Facebook的数据科学家讨论了至少有十个朋友有助于保证用户将在网站上保持活跃,这就是为什么在致力于寻找新朋友的网站上有这么多机械。

建模/统计数据

数据师是否认为他们正在进行建模或统计数据取决于他们的背景。研究统计数据的人认为自己是统计学家;其他人可能会要求更多的是更多的建模者(或者如果他们感到花哨,那么机器学习专家)。

我自己的背景是纯粹的纯数学,所以我认为统计数据作为谈论概率和回归作为一堆线性代数的有趣方式。这让我成为一个建模者。在任何一种情况下,这就是深入理论知识蔓延到数据科学的地方。一旦您完成了清洁数据和了解数据,您通常希望从将来的数据或类似的查找数据中进行预测。

我们在Alexa解决的问题之一,正在预测网站获取有多少访客。为此,我们根据我们对各个网站的流量所知以及人们与Web进行交互的情况,建立了一个模型。那里有很多事情,它真的是一个单独的博客文章的主题。但是,我只是补充说这一步往往非常复杂。我们生活在一台机器学习的黄金时代,那里的算法非常强大的算法可用作黑色盒子,产生良好的效果。然而,很容易发现自己坐在一个没有模型在框中开放的问题。因此,数据科学家花了很多时间评估和调整模型,以及返回数据以带出新功能,可以帮助提高更好的模型。

工程/原型化

具有清洁数据和良好的模型只是冰山一角。Going back to the visitor model in the last section, even if I’ve got a good model for predicting how many people visit a site (I’d like to think I do), it doesn’t do anyone much good if I can’t give those predictions to our customers and do it consistently. This means building some sort of data product that can be used by people who aren’t data scientists. This can take many forms: a visualization (or chart), a metric on a dashboard, or an application.

数据科学家是否在应用程序上建立完整,或者只是概念证明通常取决于涉及的数据量,如何需要快速的东西,最终消费者将是谁。We’re still in the early days of engineering with a slant towards projects that utilize large amounts of data, and so many of the tools and techniques that make general programming easier either aren’t available in the tools used by most data or don’t work quite as well in their new context (unit tests come to this data scientist’s mind).

包起来

还记得我之前提到的蛋卷冰淇淋吗?蛋筒的末端,所有你喜欢的口味都会融化成一团。一个数据科学项目的长期生命周期看起来很像这样。你回去重新做你的分析,因为你有了一个很好的见解,一个新的数据来源进来了,你必须整合它,否则你的原型会得到比你预期更多的使用。这是数据科学最好的地方:你做很多事情,你一起做,这是一个很好的挑战——就像多吃了一点冰淇淋。


想加入我们的团队吗?我们正在聘请数据科学家和工程师,并愿意见到你。看看我们的空缺职位保持联系!

订阅Alexa博客raybet官方网站

获得专家营销洞察力

收到新的搜索引擎优化,内容营销和竞雷竞技app官网争分析提示直接到您的收件箱。

订阅