백견이 불여일타

고정 헤더 영역

글 제목

메뉴 레이어

백견이 불여일타

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 분류 전체보기 (41)
    • Data Platform (21)
      • Elastic Stack (10)
      • Kafka (3)
      • 데이터 엔지니어링 (8)
    • Programming (16)
      • Java (14)
      • Python (1)
    • 실무이야기 (3)
    • 후기 (1)

검색 레이어

백견이 불여일타

검색 영역

컨텐츠 검색

프로그래머스

  • 데이터 엔지니어링 스타터 키트 - 7주차

    2022.06.11 by leediz

  • 데이터 엔지니어링 스타터 키트 - 6주차

    2022.05.30 by leediz

  • 데이터 엔지니어링 스타터 키트 - 5주차

    2022.05.22 by leediz

  • 데이터 엔지니어링 스타터 키트 - 4주차

    2022.05.17 by leediz

  • 데이터 엔지니어링 스타터 키트 - 3주차

    2022.05.08 by leediz

  • 데이터 엔지니어링 스타터 키트 - 2주차

    2022.04.30 by leediz

  • 데이터 엔지니어링 스타터 키트 - 1주차

    2022.04.19 by leediz

데이터 엔지니어링 스타터 키트 - 7주차

데이터 엔지니어링 스타터 키트 - 7주차 어느새 마지막 주차가 되었다. 이번 주차에서는 Airflow를 운영하는 관점에서 필요할만한 개념들과 함께 이 스터디 이후에 무엇을 공부하면 좋을지와 앞으로 데이터 엔지니어의 커리어와 관련한 이야기를 해주셨다. 오늘은 전반적인 내용에 대해 간략하게 정리하는 느낌으로 포스팅을 해보겠다. 운영을 위한 Airflow Configuration Metadata 관리를 위한 Database는 Splite보다 MySQL 또는 PostgreSQL을 추천 Default로 설정되는 Sqlite를 사용하게 되면 여러 DAG 또는 Task가 동시에 실행될 때 동시접속하기가 어려운 등의 여러 이슈가 있기 때문에 운영환경에서는 MySQL 또는 PostgreSQL을 사용할 것을 추천 sql_..

Data Platform/데이터 엔지니어링 2022. 6. 11. 20:10

데이터 엔지니어링 스타터 키트 - 6주차

데이터 엔지니어링 스타터 키트 - 6주차 이번주차는 지난 5주차에서 내주신 Weather_Forecast DAG 구현하기 과제를 수행한 내용과 세션 내에서 맥스님이 설명하신 내용에 대해 포스팅하겠다. 숙제 - Weather_Forecast DAG 구현하기 전 세계의 날씨 관련 정보를 관측소 자료를 통해 API로 제공하는 OpenWeathermp 사이트에서 무료 API Key를 발급받아서 매일 날씨정보를 가져와 Redshift에 저장하는 과제이다. 요구사항 서울의 위도와 경도를 찾아 서울 정보에 대해 API를 Request할 것 응답 결과에서 온도 정보(평균/최소/최대)만 앞으로 7일을 대상으로 출력해볼 것 날짜, 낮 온도(day), 최소 온도(min), 최대 온도(max) 읽어온 결과를 Redshift ..

Data Platform/데이터 엔지니어링 2022. 5. 30. 21:43

데이터 엔지니어링 스타터 키트 - 5주차

데이터 엔지니어링 스타터 키트 - 5주차 이번주차는 지난주차에 이어서 Airflow를 더 심화학습하는 주차였다. 그리고 언제나 그렇듯 세션 초반에는 이전 주차의 숙제를 리뷰하는 시간과 질문에 대해 리뷰하는 시간을 가졌다. 꽤 많은 시간을 리뷰에 사용하기 때문에 숙제를 열심히 한 만큼 얻어가는게 많을 것이고, 그렇지 않다면 아무래도 공감이 덜 될것이기 때문에 숙제를 소흘히 하면 안되겠다는 생각이 들었다. 오늘은 세션에서 새로 배운것보다는 Airflow를 설치하는 과제를 수행하는 과정에 대한 포스팅을 하겠다. Ubuntu 서버에 Airflow 설치 AWS Instance 접속 프로그래머스에서 각각 스터디원들에게 Airflow를 설치하여 테스트를 할 수 있는 EC2 인스턴스를 제공해준다. OS는 Ubuntu ..

Data Platform/데이터 엔지니어링 2022. 5. 22. 23:03

데이터 엔지니어링 스타터 키트 - 4주차

데이터 엔지니어링 스타터 키트 - 4주차 이번 주의 주제는 ETL/Airflow 소개이다. 드디어 Airflow에 대해 본격적으로 배우는 시간을 갖는다. 그 전에 Airflow를 사용하는 이유라고 할 수 있는 ETL에 대해 맥스님의 경험을 토대로 알아보며 관련 용어들에 대해 설명을 해주셨다. 그리고 Airflow를 사용하며 모르고 사용했을 경우 치명적일 수도 있는 Backfill 방식에 대해 설명해 주셨다. 이번 포스팅에서는 세션에서 다룬 용어 및 Airflow에 대해 간략하게 다뤄보겠다. 데이터 파이프라인이란? ETL: Extract, Transform, Load의 약자 Data Pipeline, Data Workflow, DAG 등의 용어와 호환할 수 있음 Data Source에서 원하는 데이터를 추..

Data Platform/데이터 엔지니어링 2022. 5. 17. 05:10

데이터 엔지니어링 스타터 키트 - 3주차

데이터 엔지니어링 스타터 키트 - 3주차 이번 주차의 주제는 SQL for Data Engineers 였다. 맥스님 말씀으로는 백엔드 엔지니어가 다루는 SQL과 데이터 엔지니어가 다루는 SQL은 차이가 있다고 해주셨는데 현재 SQL을 다루는 입장으로서 매우 공감이 갔다. 이번 주차도 지난 주차와 마찬가지로 숙제에 대한 리뷰로 시작을 했고 숙제가 SQL을 사용하는 쿼리였으므로 자연스럽게 이번 주차 내용과도 이어졌다. SQL의 장단점, 빅데이터 시대의 SQL, DDL과 DML, SQL의 기초 및 심화과정에 대한 언급, 실습 순서로 세션이 진행되었고 마찬가지로 숙제가 주어졌다. 2시간 반 정도 SQL과 관련하여 많은 내용이 다뤄졌는데 모든 내용을 포스팅하기에는 어렵기에 이번에는 숙제를 하며 개인적으로 정리가 ..

Data Platform/데이터 엔지니어링 2022. 5. 8. 22:49

데이터 엔지니어링 스타터 키트 - 2주차

데이터 엔지니어링 스타터 키트 - 2주차 2주차에서는 지난주 가벼운 숙제였던 퀴즈에 대해 맥스님이 리뷰를 해주시며 정답해설을 해주는 시간 및 다른 분들이 하신 질문에 대해 답변하는 시간으로 시작했다. 이후 데이터 엔지니어의 일주일에 대해 간략하게 소개하는 시간과 Cloud와 AWS에 대한 간단한 소개, 실제로 실습할때 사용할 Redshift에 대해 소개하는 순서로 진행되었다. 이번 포스팅에서는 개인적으로 처음 접해보는 Redshift에 대해 간략하게 정리해보겠다. Data Warehouse 데이터 분석을 위해 구축된 운영용 데이터베이스와는 별도의 데이터베이스 Production DB의 경우 속도가 중요한 대신 저장 공간에 제약이 있는 반면(OLTP), DW의 경우 내부 직원들이 사용하는 것이기 때문에 속..

Data Platform/데이터 엔지니어링 2022. 4. 30. 08:11

데이터 엔지니어링 스타터 키트 - 1주차

프로그래머스 데이터 엔지니어링 스타터 키트 과정을 시작하며 프로그래머스의 실리콘밸리에서 날아온 데이터 엔지니어 스타터 키트 과정을 눈여겨만 보다 이번 8기에 드디어 수강을 하게 되었다. 이번에는 단순히 수강하는 것에 그치지 않고 강의 내용을 좀 더 내것으로 만들겸 기록을 남길겸 해서 블로그에 포스팅하기도 새로운 목표를 잡고 시작해보려 한다. 데이터 엔지니어링 키트 과정 소개 1주차 : 데이터팀의 역할과 데이터 엔지니어링 소개 2주차 데이터 엔지니어의 일주일 같이 보기 AWS 간단소개 Redshift 소개 (ETL과 ELT) - 우리가 사용할 Data warehouse 3주차 : SQL for Data Engineers - 데이터를 다루는 사람들의 기본! / 백엔드 엔지니어들이 쓰는 SQL과는 다른 점에 ..

Data Platform/데이터 엔지니어링 2022. 4. 19. 23:25

추가 정보

인기글

최신글

페이징

이전
1
다음
leediz
백견이 불여일타 © KM
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바