Data Science News

Datalore에서 Git으로 작업하는 방법

Read this post in other languages:

Git은 일반적으로 데이터 과학 팀에서 사용하는 도구입니다. 이 튜토리얼에서는 협업 데이터 과학 플랫폼인 Datalore에서 Git으로 작업하는 방법을 설명하겠습니다.  

Datalore로 Git 저장소를 설치하고 해당 저장소의 내용을 수정하고 작업 버전을 관리하는 방법을 알아보려면 계속 읽어보세요. 

Datalore Notebook 환경에서 Git 저장소를 설치하는 방법

개인적으로 또는 팀에서 Python 스크립트 모음이나 Git에 저장된 pip 호환 패키지를 개발하는 경우, Datalore의 Jupyter Notebook에서 이 저장소에 편리하게 액세스할 수 있습니다. 

이를 수행하는 방법에는 3가지가 있습니다. 저장소의 액세스 수준 및 유형에 가장 적합한 방법을 선택하는 것이 좋습니다.

  Environment(환경) | Repositories(저장소) 사용 Tools(도구) | Terminal(터미널) 또는 IPython 매직 명령어 사용 팀 기본 환경 사용(Enterprise 한정 기능)
저장소 액세스 수준 선택된 Notebook에서만 선택된 Notebook 또는 선택된 작업 공간의 각 Notebook에서 모든 작업 공간의 모든 팀원의 모든 Notebook
저장소 유형 SSH를 통한 공개 Git 저장소 및 비공개 Git 저장소 모든 비공개 또는 공개 Git 저장소 또는 비 Git 저장소(Artifactory, Space Packages, 비공개 호스팅 PyPI 저장소) 모든 비공개 또는 공개 Git 저장소 또는 비 Git 저장소(Artifactory, Space Packages, 비공개 호스팅 PyPI 저장소)
설치 세부 사항 온디맨드 설치, UI에서 언제든 새로고침 가능 Git CLI를 사용한 온디맨드 설치, 특정 옵션은 init.sh로 자동화될 수 있으며 Notebook 컴퓨팅 시작 시 설치됨 사용자 지정 Docker 이미지의 일부로 설치됨 
유형 새로고침 버튼 새로고침 및 커널 재시작 터미널을 통한 Git CLI 사용 Docker 이미지 다시 빌드
사용할 수 있는 액션 복제, 풀 복제, 풀, 푸시 이미지 생성시 복제

Datalore로 Git 저장소를 복제하는 주요 목적은 사용자 정의 Python 모듈, 스크립트 또는 기능에 대한 액세스 권한을 얻고 Datalore에서 공동으로 편집하기 위해서입니다. 그러나 현재 Git 저장소의 일부로 복제된 Jupyter Notebook은 편집할 수 없습니다. 

환경 | 저장소 사용

공개적으로 사용할 수 있는 사용자 인터페이스의 Git 저장소를 단일 Datalore Notebook으로 설치하는 가장 쉬운 방법은 Environment(환경) | Repositories(저장소)를 사용하는 것입니다. 저장소의 브랜치를 선택하고 사용자 인터페이스에서 연결을 새로 고침할 수 있습니다. 

비공개 Git 저장소에 액세스하려면 Environment(환경) | Repositories(저장소) | Keys(키)에서 SSH 키를 사용하세요. 

개인 토큰 또는 사용자 이름과 비밀번호를 통해 비공개 Git 저장소에 액세스하려면 init.sh 스크립트 또는 Terminal(터미널)을 사용하면 됩니다. 

Datalore에서 공개적으로 사용할 수 있는 Git 저장소 설치

터미널 및 init.sh 스크립트 사용

터미널에서 Git 저장소를 복제하려면 Notebook을 열고 Tools(도구) | Terminal(터미널)로 이동하여, Git  CLI 명령어를 사용하여 저장소를 복제합니다. 하나의 Notebook에서만 저장소를 사용하려는 경우, Notebook files(Notebook 파일)로 복제합니다. 모든 작업 공간 Notebook에서 저장소를 사용하려는 경우, Workspace files(작업 공간 파일)로 복제합니다. 

Notebook에서 저장소 내용에 액세스하려면 필요한 기능을 가져옵니다. Datalore는 가져온 Python 모듈에 대한 코드 완성 및 문서 팝업을 제공합니다. 

각 Notebook을 시작할 때 터미널 명령어 실행을 자동화하려면 init.sh 셸 스크립트를 사용할 수 있습니다. 

예를 들어, 자신의 비공개 저장소에 대한 액세스를 구성하고, 개인 토큰 사용을 구성하며, 비 python 종속성을 설치하고 파일 디렉터리에 마운팅할 수 있습니다. pip 또는 conda 환경 관리자가 기본 환경 설정을 실행하기 전에 이 작업을 자동으로 수행할 수 있습니다. 

Datalore에서 저장소를 복제하는 Git  CLI 명령어 사용

저장소에 액세스하거나 파일을 저장소로 푸시하기 위해 사용자 이름 또는 이메일을 지정해야 하는 경우 init.sh 스크립트에 다음 구성을 추가합니다. 

git config --global user.email "email@example.com"
git config --global user.name "your name"

init.sh 스크립트로 일련의 터미널 명령어 실행 자동화

작업 공간의 각 Notebook에 대해 init.sh 스크립트를 사용할 수 있도록 하려면 작업 공간 파일이 첨부되었는지 확인하고 Notebook files(Notebook 파일)에서 Workspace files(작업 공간 파일)로 init.sh 파일을 이동합니다.

팀 기본 환경 사용

특정 저장소에 대한 중앙 집중식 액세스를 팀에 제공하려는 경우, 이 저장소를 사용자 지정 기본 환경의 일부로 만들 수 있습니다. 

기본 환경은 Datalore에서 새 Notebook을 생성할 때 사전 빌드 구성으로 간편하게 사용할 수 있는 사용자 지정 Docker 이미지입니다.

사용자 지정 기본 환경을 통해 Git 저장소에 대한 중앙 집중식 액세스 제공

사용자 지정 기본 환경은 Enterprise 사용자만 이용할 수 있습니다. Datalore Enterprise용 사용자 지정 기본 환경을 구성하려면, 이 가이드를 사용하세요. 

Datalore에서 Git 저장소 내용을 편집하는 방법

Git 저장소에서 사용할 수 있는 Python 스크립트 또는 파일을 편집하려면, 다음을 사용하여 저장소를 Attached data(첨부한 데이터)에 복제할 수 있습니다.

  • Tools(도구) | Terminal(터미널): 여기에서 터미널 세션을 열어 Git CLI 명령어를 실행할 수 있습니다. 
  • Notebook 코드 셀 내에 있는 Python 매직 명령어.

Datalore에서 Git 저장소의 Python 스크립트 또는 파일 편집

저장소를 복제하고 하나의 Notebook에서 편집하려면, 반드시 Notebook files(Notebook 파일)로 복제합니다. 모든 작업 공간 Notebook에서 저장소를 편집하려는 경우, Workspace files(작업 공간 파일)로 복제합니다. Home workspace files의 경우, Workspace files를 Notebook에 명시적으로 연결해야 할 수 있습니다.

저장소를 Attached data(첨부된 데이터)에 복제한 후 파일 내용을 공동으로 편집할 수 있습니다. 

Python 파일의 경우 코드 완성 및 구문 강조 표시도 제공됩니다. Notebook에서 업데이트된 기능을 사용하려면 커널을 다시 시작하거나 자동으로 다시 로드되는 확장 프로그램을 사용해야 합니다.

%load_ext autoreload
%autoreload 2

Python 파일을 공동 편집

⚠️ 현재 복제된 Git 저장소의 일부인 Jupyter Notebook을 편집할 수 없습니다. 저장소에서 Jupyter Notebook을 보려면, Notebook을 두 번 클릭하세요. Datalore의 새 탭에서 Notebook이 열립니다. 이 워크플로에 특히 관심이 있다면 이 블로그 글의 마지막 단락을 참조하세요. 

Git 및 Datalore로 데이터 과학 작업의 버전을 지정하는 방법

Jupyter Notebook은 Datalore의 필수 요소입니다. Notebook의 변경 내용을 계속 추적하려면 Datalore의 History(기록) 도구를 사용하는 것이 좋습니다. 

Tools(도구) | History(기록)로 이동하여 다음을 수행할 수 있습니다. 

  • 이전에 저장한 상태로 되돌립니다.
  • Notebook의 현재 버전과 체크포인트 간의 차이를 확인합니다. 
  • Ctrl/Cmd+S를 눌러 사용자 지정 체크포인트를 생성합니다.
  • 협업자가 편집한 내용을 확인합니다.

그 외에도 Datalore는 Notebook에서 셀 삭제와 같은 잠재적으로 위험할 수 있는 작업을 수정하기 위해 자동으로 체크포인트를 생성합니다.

Datalore에서 Notebook 버전 지정

Datalore 내에서 개발한 Python 파일의 버전을 지정하려면, 터미널을 사용하여 특정 파일 또는 폴더를 Git에 커밋하거나 푸시할 수 있습니다.

Datalore에서 Git 저장소 버전 지정

Datalore에서 Jupyter Notebook을 Git에서 가져오는 방법

Datalore의 작업 공간 파일 시스템에서 Git의 단일 Jupyter Notebook을 가져올 수 있습니다. 새 Notebook 버튼 옆에 있는 아래쪽 화살표를 클릭하여 Notebook URL을 붙여넣습니다.

Datalore에서 Jupyter Notebook을 Git에서 가져오기

Datalore의 향후 Git 지원을 개선하기 위한 로드맵 

2023년 후반에 출시 예정인 Github와의 긴밀한 통합을 위한 작업이 진행 중이며, 여러분이 관심을 가질 만한 특정 워크플로와 사용 사례에 대해 자세히 알고 싶습니다.

여러분이 데이터 과학 팀의 일원이고 원하는 일부 워크플로가 Datalore에 빠져 있다면 알려주세요! 자격에 부합하는 참여자에게는 30분간의 인터뷰에 대해 $30의 Amazon 기프트 카드를 드립니다.

Datalore팀과의 미팅 신청하기

Datalore에서 Git 저장소로 작업하는 방법에는 여러 가지가 있습니다. Datalore 내부의 History(기록) 도구 및 라이브 공동 작업 기능을 이용하면 Git으로 작업할 때보다 데이터 과학 작업에 더 집중할 수 있을 겁니다. 내부 저장소에 대한 스크립트, 액세스 또는 변경 사항을 공유해야 하는 경우, Datalore의 Terminal(터미널), init.sh 스크립트 및 Environment(환경) 관리자를 사용하여 언제든 공유할 수 있습니다. 

감사합니다.

Datalore 팀

게시물 원문 작성자

Jessie Cho

Alena Guzharina

image description

Discover more