How-To's News Reporting Teams

作为数据科学团队有效协作的 5 种方式

Read this post in other languages:
English, 한국어

数据科学项目可能非常复杂,由许多部分组成,例如 Notebook、数据、环境和脚本等。对于数据科学团队来说,有效地一起工作可能是一项很大的挑战。

在这篇文章中,您将学习 5 种适用于数据驱动型团队的协作技术,从而提高工作效率并减轻压力。

5 Ways to Collaborate Effectively as a Data Science Team

轻松共享代码和关键工件

在数据科学项目上协作很容易一开始就失败,因为与其他团队成员共享资料非常麻烦。 共享 Jupyter Notebook 也需要您分享大量上下文:具体的环境、数据和数据连接。 如果您需要的只是数据转换方面的帮助,这似乎是多余的。 如果共享 Jupyter Notebook 能像共享 Google 文档一样简单,岂不是很好?

借助 Datalore,您可以通过链接或电子邮件邀请共享具有查看或编辑权限的 Notebook,所有附加的数据和数据集成、环境和计算状态将被自动共享。 当您已经训练机器学习或深度学习模型很长时间,想实时分享您的进展时,这可能特别方便。

与团队成员一起实时编写代码

Datalore 是一个适用于团队的协作式数据科学和商业智能平台。 您可以在线尝试由 JetBrains 托管的 Datalore Community 和 Datalore Professional,也可以在您的私有云或本地部署环境中作为自托管解决方案安装 Datalore Enterprise

当您的同事进入 Notebook 时,您会实时看到他们的图标和光标。 点击他们的图标,即可开始自动跟踪他们。 你们也可以实时协作处理 Python 脚本和附加到 Notebook 的数据文件。

在 Datalore 中跟踪协作者

既可以实时访问共享 Notebook,也可以在其他团队成员离线时访问。 您不需要担心破坏 Notebook 中的内容,因为操作会被保存在历史记录工具中,这意味着您可以随时跟踪更改并恢复到自定义或自动检查点。

如果您喜欢使用开源的 Jupyter Notebook,在服务器上安装 Yjs 插件后,您可以通过链接共享它们并进行实时协作。 不过,这个插件缺乏角色权限,没有实时的协作者跟踪和版本差异功能,而且您的数据库密码或其他凭据会被公开,可以被您的团队成员检索到。

申请 30 天免费试用

为数据科学项目创建知识库

如果您的团队成员经常做重复性工作,您可以考虑使用 Notebook 模板创建一个知识库。 这是一种简单的方式,可以帮助您的团队成员避免浪费几个小时来重新发明另一个团队成员已经开发的流程。

在 Datalore 中,您可以创建一个共享的团队工作区,并存储您所有的关键 Notebook 模板和数据集。 由于 Datalore 的一体化设置,这些模板可以包括一个配置好的环境、适当的 Markdown 描述、一些归档的模板代码,甚至到相关数据库或云存储的连接。 然后,数据科学家将能够将这些 Notebook 克隆到他们自己的工作区,并以此为基础开始构建。

为数据科学项目创建知识库

此类知识库也可以简化新团队成员的入门,因为所有关键数据集、Notebook 和环境设置都可以在一个地方获得。

编写代码时考虑到可重现性

理解对方的代码可能很困难,但解决同事的错误就更难了。 下面是一个简短的核对清单,您可以将其推广到团队来帮助实现可重现性:

  • 使用 Markdown 单元描述每 2–3 个代码块。
  • 点击 Run all(全部运行),确保 Notebook 重新计算后没有错误,然后再将您的工作以报告形式发布或放到共享工作区中。 另外,您也可以在 Datalore 中使用 Reactive 模式统一 Notebook 状态。 您可以在此处详细了解相关信息。
  • 随 Notebook 共享环境和数据。 Datalore 会默认进行此处理,但如果您使用开源 Jupyter,则需要手动执行此操作。

如果可重现性对您很重要,请务必观看我们最近与 Jodie Burchell 博士举行的在线讲座,了解可重现性研究的 5 个提示。

有效地传达您的发现,以促进全公司范围内的数据驱动决策

虽然 Notebook 是进行数据科学研究的出色工具,但它并不是传达结果的最有效方式。

带有大块代码的原始 Notebook 必然会包含很多与技术和非技术利益相关者无关的信息。 他们通常只想知道您做了什么,为什么这么做,以及您的发现是什么。

然而,使用 Tableau 或 Power BI 等工具或 Dash/Streamlit (Python)、Shiny (R) 等仪表板软件包或 Google 文档/Microsoft Word 创建报告需要执行很多额外的工作。 Notebook 与报告之间的连接也被移除,这意味着您对 Notebook 的任何更改都需要在报告中手动更新。

这些痛点可以通过 Datalore 轻松解决。 Datalore 中的 Notebook 可以直接转换为报告,并能根据您的意愿隐藏 Notebook 的输入和输出。 利益相关者可以在没有 Datalore 帐户的情况下访问这些报告,并与下拉菜单、滑块和绘图交互。 如果利益相关者具有 Datalore 帐户和基本的 Python 或 SQL 知识,他们将能够通过编辑报告的副本来深入分析。

打开报告示例

从本地到基于云

您在使用本地安装的 Jupyter Notebook 吗? 查看下面的对比表,了解您为什么应考虑迁移到基于云的数据科学平台的几个原因。

本地 Jupyter,单独安装。云平台,由贵公司或 SaaS 提供商托管。
协作只通过 Git。
 与数据和环境的连接可能会丢失,您可能会忘记提交项目的最新状态,而推送带有输出的 Notebook 会给 Git 仓库带来额外的混乱。
在 Notebook 与共享工作区上进行实时协作,并附加所有工件(在 Datalore 中可用)。
处理大数据从服务器上拉取大数据需要大量时间,而且您的本地机器可能会耗尽内存。您可以扩缩云机器,拉取数据,而不必依赖互联网速度。
新团队成员入门每个新团队成员都要花时间安装 Jupyter,配置环境,并自行拉取数据。一键访问团队项目,所有内容都已预先安装。
计算机访问需要手动启动机器并通过 SSH 访问。只需点击一次即可在强大的服务器上轻松运行计算。
环境设置每个用户具有不同的环境,这可能很难管理。一个新的软件包可能会破坏整个应用程序,而且很难进行调试。团队可以创建多个具有预安装依赖项的基础环境。应用不会被破坏,因为每个 Notebook 的环境都是隔离的。

怎样才能试用 Datalore 来改善我的数据科学团队协作?

如果您想在团队中尝试 Datalore,可以使用 Enterprise 方案托管一个私有云或本地部署版本。 详细了解 Datalore Enterprise 并在此处申请试用。

申请 30 天免费试用

如果您想自行使用 Datalore 或在云中快速试用,可以注册由 JetBrains 托管的 Datalore Community 或 Professional 方案

今天的文章就到这里! 请在我们的博客上关注我们以获取实用提示,并在 Twitter 上关注我们来了解最新动态!

祝您协作愉快!

Datalore 团队

本博文英文原作者:

Sue

Alena Guzharina