-
[진로부트캠프 2주차 by 코멘토] 빅데이터 개념과 파이썬 배워보기외부 활동/진로부트캠프 by 코멘토 2023. 2. 24. 17:45
진로부트캠프 1주 차 포스팅에 이어 이번에는 2주 차! → https://maniaeom.tistory.com/7
[진로부트캠프 1주차 by 코멘토] 웹 페이지 개발 배워보기
4차 산업 혁명과는 거리가 먼 삶을 살아왔던 나. 놀랍게도 다음 학기부터 빅데이터 전공을 복수전공으로 이수하게 되었다. 그만큼 이 분야의 기초 지식이라고는 아무 것도 없었기에 겨울 방학
maniaeom.tistory.com
1주 차 캠프에서는 웹 페이지 기획과 개발에 대해 배웠다. 과제 또한 페이지 '기획'이었고.
그렇지만 내가 좀 더 배우고 싶은 분야는 전형적인 개발보다는 빅데이터 분석이다.
이번 캠프에 더 많은 기대를 걸었던 것도 같은 맥락에서였다.
이번 캠프도 녹화된 영상을 시청하고 과제를 풀이하는 방식으로 진행했다.
저번 강의의 경우 멘토님께서 어떻게 개발자가 되었는지, 개발자의 업무 일과는 어떠한지가 중심 내용이었다.
반면 이번에는 빅데이터의 개념과 예시, 기존 데이터 모델과 빅데이터의 비교, 빅데이터의 필요성 등 이론 중심으로 배웠다.
가장 흥미로웠던 부분은 Hadoop!
지금까지 빅데이터는 이전의 데이터와 달리 그 정보량이 아주 크다는 것만 알고 있었다.
그 큰 데이터의 처리 과정에 대해서는 잘 몰랐는데, Hadoop이라는 프레임워크를 사용하면 된다는 걸 배웠다.
Databricks의 '하둡이란 무엇입니까?': https://www.databricks.com/kr/glossary/hadoop
What is Hadoop? – Databricks
하둡이란 무엇입니까? "하둡"이란 무엇을 의미할까요? 더 중요한 것은, "하둡"은 무엇의 약자일까요? 사실, 고가용성 분산형 객체 지향적 플랫폼(High Availability Distributed Object Oriented Platform)을 뜻합
www.databricks.com
하나의 storage에 데이터를 보관하는 것이 아니라, 하나의 master node와 여러 slave nodes를 두어 처리한다는 것.
이러한 Hadoop은 데이터를 분산된 장비에 저장할 수 있는 HDFS와 ('여러 컴퓨터에 나누어 저장하기'로 이해했다),
저장된 분산 파일을 분석하는 MapReduce로 ('나누어 저장했던 파일을 원하는 방식으로 처리해 합치기'로 이해했다) 구성된다.
강의를 듣고 나면 과제가 찾아온다. 이번 과제는 파이썬 예제 풀이!
다른 개발자들은 Java, C, C++ 등을 사용하지만 빅데이터 분야는 파이썬을 많이 쓴다고 한다. (물론 다른 언어도 사용한다)
문제를 풀기 위해 파일을 열었는데 확장자가 .ipynb였다.
IDLE도 설치되어 있는 노트북에서 문제가 열리지 않아 당황했는데, 알고 보니 Jupyter notebook을 실행해야 했다.
주피터 노트북을 사용하면 웹 브라우저에서 파이썬 코드를 작성하고 실행할 수 있다.
파이썬 코딩 도장의 '주피터 노트북 사용하기': https://dojang.io/mod/page/view.php?id=2457
파이썬 코딩 도장: 46.2 주피터 노트북 사용하기
지금까지 파이썬 IDLE에서 코드를 작성하고 실행해봤습니다. 이번에는 웹 브라우저에서 파이썬 코드를 작성하고 실행까지 해볼 수 있는 주피터 노트북(jupyter notebook)을 사용해보겠습니다. 사실
dojang.io
Datadoctor의 'Py) Anaconda 설치': https://datadoctorblog.com/2020/07/06/Py-Anaconda-install/
Py) Anaconda 설치
파이썬을 시작하기 위해서는 리눅스(Linux) 운영체제에 기본 설치된 파이썬을 사용할 수도 있고, 순수하게 파이썬만 내려받고 가상환경을 구축하는 등 다양한 방법이 있다. 그 중에 주피터 노트
datadoctorblog.com
처음 사용해보는 주피터 노트북은 낯설었다.
코드를 셀 안에 적어야 한다는 것도, 바로바로 실행이 가능하다는 것도 신기했다.
아마 개발 중간중간 실행이 가능하다는 점이 눈에 띄는 장점 같다.
예제 자체는 아주 어렵지 않았다.
답변을 문제와 함께 올려주셔서 1) 할 수 있는 데까지 풀어보고 2) 답변과 비교하는 식으로 공부했다.
그리고 답변과 비교하는 과정에서 새로 배운 점이 있다면 코멘트로 적어두었다.
저번 과제와 달리 2주 차 캠프는 비교적 빠르게 끝이 났다.
1학기 교양 강의 이후 파이썬 과제를 받아본 것이 오랜만이라 재밌더라.
역시 코딩은 글로 공부하기보다 직접 문제를 풀어봐야 하는 것 같다.
'외부 활동 > 진로부트캠프 by 코멘토' 카테고리의 다른 글
[진로부트캠프 1주차 by 코멘토] 웹 페이지 개발 배워보기 (0) 2023.02.13