매일매일 조금씩

SW테크

데이터 사이언티스트, 데이터 애널리스트, 데이터 엔지니어, 머신러닝 엔지니어 ... 데이터 관련 직군을 구분하는 명칭은 여러가지가 있습니다. 비교적 잘 구분되는 직군도 있겠으나, 아마 누구도 이쪽 영역을 gray 영역 없이, 두께가 0인 선으로 구분짓지는 못할 것입니다.

실제로 현업 당사자인 저도 제대로 구분짓지 못합니다. 업무를 진행할 때도 한 영역의 일만 할 수 없는 것이 현실적인 상황일 거구요. 데이터 사이언티스트를 예로 들어보면, 어느정도는 대용량 데이터 처리를 위해 pyspark 를 다룰 줄 알 것이고, 분석/예측 모델을 만들기 위해 머신러닝도 활용할 수 있을 것이며, 성능 최적화를 위해 Hyper-parameter tuning 과 이를 위한 실험관리, 데이터 업데이트에 따른 모델 업데이트를 수행하거나 배포하기 위해 MLOps를 알아야 할 것입니다.

저는 정통 S/W 개발자는 아니지만, Machine Learning을 주로 활용하는 데이터 사이언티스트로서 S/W 개발 지식을 필요로 합니다. 많은 S/W 비전공자들이 관련 업무를 하게 되고, 하고 싶어하는 상황에서 저와 같은 S/W 비전공자들이 겪는 어려움이 있습니다. 온라인에 충분히 많은 레퍼런스들이 있지만, S/W 관련 기본 도메인 지식 없이는 이해하기 어려운 경우도 많습니다.

밑바닥에서부터 (저는 CMD도 한번도 안켜봤습니다) 시행착오를 겪으며 배웠던 것들을 적고 있습니다. 아마 비전공자들의 눈높이에 잘 맞지 않을까 생각합니다.