首页 > 最新资讯 > 如何打造数据科学梦之队
如何打造数据科学梦之队

如何打造数据科学梦之队

2019-05-17 09:00

#深度学习


作者:jared dame, global ai and edge director at hp inc and jim duarte, principal at lj duarte & associates llc。

 

马克·吐温曾经说过,“数据如同垃圾,最好在收集之前便知道其用途。”这让数据科学团队深思熟虑。

 

许多团队在收集数据时首选的方法是“全部收集”,以后再进行分类,但是这种数据策略会为以后管理、验证和处理数据带来一些问题。

 

那这个问题有没有解决方案呢?数据科学家和主题专家 (sme) 在数据方面的密切合作对于构建用于捕获数据来进行快速且准确决策的基础架构而言至关重要。从何处着手?首先,务必了解数据科学家的角色,这样才能确定打造数据科学“梦之队”的有效方式。

 

数据科学家做哪些工作?

 

大家经常会讨论“数据科学家”这个词,通常也会产生混淆。简而言之,数据科学的定义是提出问题并从数据中寻求答案的过程。通过定义数据科学家的角色并将其划分为四大类别,这样有助于澄清数据科学家这个词的不同用法,其中每一个用法都有侧重点。

 

第一类数据科学家(在本文中将其称为ds1)负责围绕以下事项创建数据策略和整体技术要求,即如何在快速收集见解的整个生命周期中收集、存储、格式化和访问数据。此外,此类科学家还为开发 ai 和其他编码机制提供支持,这些机制可为其他团队提供提出问题并从数据中寻求答案的能力。另一个关键要素是确保用户拥有“高质量数据”。高质量数据意味着数据没有错误并且格式统一。

 

ds1 的一个关键且通常比较艰巨的角色是让在流程如何运作和衡量方面拥有重要知识的 sme 参与进来。在帮助创建有意义的算法时,通常很难理解 sme 的需求。为合适的人提供格式正确的合适数据是创办一流组织的基础。此外,ds1 在快速提供可用数据的技术问题方面发挥着重要作用,因为对于下文所述的数据科学家而言,数量和速度使得数据分析成为一项艰巨的任务。

 

第二类数据科学家(即ds2)需要与 sme 深入研究数据类型及其执行高级分析的需求。他们都由统计学家和拥有分析学硕士学位的毕业生提供支持。后者的主要任务是分析数据,而不是研究基本的数学理论。他们都可以为 sme 执行高级分析提供重要的支持。此外,ds2 还必须认识到,整合分析的一个主要考虑因素与它对第四代工业革命的影响有关。现在,人们越来越频繁地使用工业 4.0、制造 4.0、智能制造和质量 4.0 这些词,有时甚至是误用。我们必须考虑在此环境下,数据创建、收集和格式化的改变方式。

 

定义要创建和收集的相关性较强且非常有用的数据非常重要。花时间集体讨论哪些关键问题需要借助数据解答也会为数据源和收集的数据类型相关的讨论提供帮助。

 

下一个练习是衡量所需的数据量以及数据创建速度。花时间测量可用数据量和速度的影响将助力 ds1 和 ds2 优化每项任务的方式。

 

关于将数据转换为对决策有意义的信息的分析方法的对话将揭示高级分析的技术本质以及完成任务的数据格式。这时,ds1 和 ds2 可以让 sme 一起参与有意义的讨论。借助之前关于所需数据类型的谈话期间遇到的问题,ds2 可以开始构建分析策略。此策略首先应区分使用商业智能 (bi) 软件执行简单数据搜集和机器学习以及其他更先进的分析方法。

 

这时,ds1 和 ds2 可以联合购买分析软件。购买分析软件时需要注意几个问题。从软件供应商处购买时应注意的常见问题为:1) 避免购买的软件“技术含量过高”。软件公司可能会在软件包中“捆绑”大量功能,包括可能永远也用不上的分析程序和功能。2) 确保软件不要过于复杂。软件应很快能安装和配置,无需借助其他资源。如果软件难以安装和配置,也可能会难以维护。3) 关注价格。这个意思很明显,但仍需注意几个问题,避免供应商就“咨询”安装和配置其系统的事宜收费。

 

第三类数据科学家 (ds3) 的角色是各领域中的 sme。因为有 ds1 和 ds2 适当准备数据并提供访问权限,ds3 便能通过其特定的行业角度查看数据。通过 sme 使用分组、钻取和热门技术来花时间搜索数据,这样有助于所有人更好地理解其角色在以下方面的重要性,即提供有益且一致的决策流程以及获取数据的深度见解。

 

最后,第四类数据科学家ds4)是整个数据管理、分析和报告流程的把关者。他们的角色是优化基础架构,为组织内的决策者提供尽可能多的有用信息。他们可以咨询 ds1 和 ds2 找到之前未解决的问题的答案。他们的角色是确保数据和分析对于关键决策者而言“随时可用”。这包括验证标准报告的准确性,以及处理和可能预测“下一个问题”以及找寻问题的答案。

 

组织必须具备这四种类型的数据科学家才能充分利用数据实现快速且一致的智能决策。对此结构的管理支持可为组织提供高效运转的宝贵资源。

 

为数据科学家提供取得成功所需的工具

 

记住这些指南将有助于您组建一支数据科学家团队,迎接艰巨的数据挑战。正如车队为技能超凡的车手提供新型技术创新来逐渐提升速度一样,您应为数据科学家提供所需工具,帮助他们提高执行突破性工作的效率。

 

其中一个此类工具是 rapids,这是一系列开源机器学习库,可以利用 gpu 实现卓越性能。rapids 源自 nvidia,可让您团队中的每个成员都能利用数据科学的威力,拥有可以简化并提升其工作效率的创新技术。rapids 由 nvidia cuda 提供支持,可提高数据准备、模型训练和数据可视化速度,适用于可在 nvidia gpu 系统选项(例如惠普提供的系统)产品组合中部署的加速工作流程。现在,企业可得益于数据科学家工作效率的改进,在模型准确性方面取得突破性进展,同时还可以降低基础架构总拥有成本 (tco)。

相关新闻