Datalore
Collaborative data science platform for teams
데이터 과학 팀이 효과적으로 협업하는 5가지 방법
데이터 과학 프로젝트는 Notebook, 데이터, 환경 및 스크립트와 같은 많은 부분으로 구성되어 있어 복잡할 수 있으며 데이터 과학 팀이 이러한 복잡성 속에서 효과적으로 협력하기란 쉽지 않을 수 있습니다.
이 게시물에서는 데이터 기반 팀의 생산성을 높이고 스트레스를 줄여주는 5가지 최신 협업 기술을 알아봅니다.
코드 및 필수 아티팩트를 쉽게 공유
데이터 과학 프로젝트에서 협업할 때는 다른 팀원과 자료를 공유하기가 너무 번거롭다는 문제 때문에 처음부터 난관에 부딪히기 쉽습니다. Jupyter Notebook을 공유하려면 특정 환경, 데이터 및 데이터 연결과 같은 많은 양의 컨텍스트도 공유해야 합니다. 데이터 변환만 도움을 받으려는 경우라면 이는 너무 과도한 작업이죠. Jupyter Notebook을 Google 문서만큼 쉽게 공유할 수 있다면 좋지 않을까요?
Datalore를 사용하면 간단히 링크 또는 이메일 초대를 통해 보기 또는 편집 액세스 권한을 부여해 Notebook을 공유할 수 있으며 첨부된 모든 데이터 및 데이터 통합, 환경 및 컴퓨팅 상태가 자동으로 공유됩니다. 이는 머신러닝 또는 딥 러닝 모델을 오랫동안 훈련해 왔고 진행 상황을 실시간으로 공유하려는 경우에 특히 유용할 수 있습니다.
Datalore는 팀을 위한 데이터 과학 및 BI 협업 플랫폼입니다. JetBrains에서 호스팅하는 Datalore Community 및 Datalore Professional을 온라인에서 사용하거나 프라이빗 클라우드 또는 온프레미스에 자체 호스팅 솔루션으로 Datalore Enterprise를 설치할 수 있습니다.
동료가 Notebook에 들어가면 실시간으로 동료의 아이콘과 커서가 표시됩니다. 아이콘을 클릭하면 자동으로 추적하고 팔로우할 수 있습니다. 또한 Notebook에 첨부된 Python 스크립트 및 데이터 파일에서도 실시간으로 협업할 수 있습니다.
공유 Notebook은 실시간으로, 그리고 다른 팀원이 오프라인일 때도 접근이 가능합니다. 작업이 History 도구에 저장되므로 Notebook에서 무언가가 잘못될까 걱정할 필요가 없습니다. 즉, 항상 변경 사항을 추적할 수 있으며, 사용자 지정 또는 자동 체크포인트로 되돌릴 수 있습니다.
오픈 소스 Jupyter Notebook을 사용하고 싶다면 서버에 Yjs 플러그인을 설치한 후 링크를 통해 공유하고 실시간으로 협업할 수 있습니다. 그러나 이 플러그인에는 역할 권한 기능이 없고 실시간 공동 작업자 추적 및 버전 Diff 기능이 없으며 데이터베이스 비밀번호 또는 기타 자격 증명이 노출되므로 팀원이 이 정보를 검색할 수 있습니다.
데이터 과학 프로젝트를 위한 지식 베이스 만들기
팀원이 반복적인 작업을 자주 수행한다면 Notebook 템플릿으로 지식 베이스를 만드는 것이 좋습니다. 그러면 다른 팀원이 이미 개발한 프로세스를 다시 만드느라 시간을 낭비하는 일을 쉽게 방지할 수 있습니다.
Datalore에서 공유 팀 작업 공간을 만들고 모든 필수 Notebook 템플릿과 데이터세트를 저장할 수 있습니다. Datalore의 올인원 설정 덕분에 이러한 템플릿에는 구성된 환경, 적절한 마크다운 설명, 문서화된 템플릿 코드, 그리고 관련 데이터베이스 또는 클라우드 스토리지에 대한 연결까지 포함할 수 있습니다. 그런 다음 데이터 과학자는 이러한 Notebook을 홈 작업 공간에 복제하고 이를 기반으로 빌드할 수 있습니다.
또한 이러한 지식 베이스에는 모든 필수 데이터 세트, Notebook 및 환경 설정이 한 곳에 모여 있으므로 새로운 팀원이 온보딩하기가 편리합니다.
재현 가능성을 염두에 두고 코드 작성
서로의 코드를 이해하는 일도 어렵지만 동료의 버그를 해결하는 일은 훨씬 더 어렵습니다. 다음은 재현성을 돕기 위해 팀에 도입할 수 있는 간단한 체크리스트입니다.
- 2~3개의 코드 블록마다 Markdown 셀을 사용하여 설명하세요.
- 작업을 보고서로 게시하거나 공유 작업 공간에 넣기 전에 ‘Run all'(모두 실행)을 클릭하고 Notebook이 오류 없이 다시 계산되는지 확인하세요. 또는 Datalore에서 Reactive 모드를 사용하여 Notebook 상태를 일관되게 만들 수 있습니다. 이에 관한 자세한 내용은 여기에서 확인할 수 있습니다.
- Notebook과 함께 환경 및 데이터를 공유하세요. Datalore는 기본적으로 이를 처리하지만 오픈 소스 Jupyter를 사용하는 경우 명시적으로 처리해야 합니다.
재현성이 중요하다면 재현 가능한 연구를 위한 5가지 팁을 설명한 Jodie Burchell 박사의 최근 웨비나를 시청해 보세요.
결과를 효과적으로 전달하여 전사적으로 데이터 기반 의사 결정을 촉진
Notebook은 데이터 과학 연구를 수행하기에 훌륭한 도구이지만 결과를 전달하는 가장 효과적인 수단은 아닙니다.
여러 가지 코드로 가득한 원시 Notebook에는 기술직 및 비기술직 관계자 모두와 관련이 없는 많은 정보가 포함되어 있기 쉽습니다. 관계자들은 일반적으로 여러분이 무엇을 했는지, 왜 그렇게 했는지, 무엇을 발견했는지를 알고 싶어 합니다.
그러나 Tableau 또는 Power BI와 같은 도구나 Dash/Streamlit(Python), Shiny(R) 또는 Google Docs/Microsoft Word와 같은 대시보드 패키지를 사용하여 보고서를 만드는 데는 많은 추가 작업이 따릅니다. 또한 Notebook과 보고서 간의 연결이 제거되므로, Notebook에 대한 변경 사항을 보고서에서 수동으로 업데이트해야 합니다.
Datalore를 사용하면 이러한 문제를 쉽게 해결할 수 있습니다. Datalore의 Notebook은 보고서로 직접 변환할 수 있으며 원하는 만큼 Notebook 입력과 출력을 숨길 수 있습니다. 관계자들은 Datalore 계정 없이 이러한 보고서에 액세스하고 드롭다운, 슬라이더 및 플롯과 상호 작용할 수 있습니다. 또한 관계자가 Datalore 계정과 기본적인 Python 또는 SQL 지식을 가지고 있는 경우, 보고서 사본을 편집하여 분석에 개입할 수 있습니다.
로컬에서 클라우드 기반으로
로컬에 설치된 Jupyter Notebook을 사용하고 계신가요? 아래 비교 표를 확인하여 클라우드 기반 데이터 과학 플랫폼으로의 전환을 고려해야 하는 몇 가지 이유를 알아보세요.
개별적으로 설치된 로컬 Jupyter. | 회사 또는 SaaS 공급자가 호스팅하는 클라우드 플랫폼. | |
공동 작업 | Git을 통해서만 가능합니다. 데이터 및 환경에 대한 연결이 끊길 수 있고, 프로젝트의 최신 상태를 커밋하는 것을 잊어버릴 수 있으며, 출력이 있는 Notebook을 푸시하면 Git 저장소에 추가적인 혼란이 생길 수 있습니다. | 모든 아티팩트가 첨부된 Notebook 및 공유 작업 공간에서 실시간 공동 작업(Datalore에서 사용 가능)을 할 수 있습니다. |
빅데이터 작업 | 서버에서 빅데이터를 가져오려면 많은 시간이 걸리고 로컬 시스템의 메모리가 부족할 수 있습니다. | 인터넷 속도에 의존하지 않고도 클라우드 시스템을 확장하고 데이터를 가져올 수 있습니다. |
새 팀원 온보딩 | 새 팀원이 올 때마다 Jupyter를 설치하고, 환경을 구성하고, 스스로 데이터를 가져오려면 시간이 소요됩니다. | 모든 요소가 팀 프로젝트에 사전에 설치되어 클릭 한 번으로 액세스 가능합니다. |
계산 머신으로의 액세스 | 머신을 수동으로 가동하고 여기에 SSH를 처리해야 합니다. | 클릭 한 번으로 강력한 서버에서 쉽게 계산을 실행할 수 있습니다. |
환경 설정 | 사용자마다 환경이 다르기 때문에 관리하기 어려울 수 있습니다. 새 패키지로 인해 전체 애플리케이션이 손상될 수 있으며 디버그하기 어려울 수 있습니다. | 팀은 종속 요소가 사전 설치된 여러 기본 환경을 만들 수 있습니다. 각 Notebook의 환경이 분리되어 있으므로 앱이 손상되지 않습니다. |
데이터 과학 팀의 협업을 개선하기 위해 Datalore를 사용해 보려면?
팀에서 Datalore를 사용해 보려면 Enterprise 요금제로 프라이빗 클라우드 또는 온프레미스 버전을 호스팅할 수 있습니다. Datalore Enterprise에 대해 자세히 알아보고 아래에서 평가판을 요청하세요.
Datalore를 개인적으로 사용하거나 클라우드에서 빠르게 사용해 보려면 JetBrains에서 호스팅하는 Datalore Community 또는 Professional 요금제에 등록할 수 있습니다.
오늘 소개할 내용은 여기까지입니다! 유용한 팁을 보려면 블로그를 팔로우하고 최신 업데이트를 보려면 트위터를 팔로우하세요!
협업의 즐거움을 누리세요!
Datalore 팀 드림
게시물 원문 작성자