• Stars
    star
    147
  • Rank 251,347 (Top 5 %)
  • Language
  • Created over 2 years ago
  • Updated over 2 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

《머신러닝·딥러닝 문제해결 전략》

《머신러닝·딥러닝 문제해결 전략》

캐글 수상작 리팩터링으로 배우는 문제해결 프로세스와 전략

  * 신백균 지음 | 골든래빗(주)
  * 38,000원 | 652쪽
  * 미리보기 | 공략집(with 미니맵) | 정오표
  * 구매처 : 교보문고, 예스24, 알라딘, 인터파크


★ 문제해결 방식에 정답은 없어도 패턴은 있습니다.

어떤 일이든 일정 수준에 도달하면 경험적으로 최적화된 패턴이 생기기 마련입니다. 이 책에는 수많은 캐글 수상자의 노트북을 리팩터링하며 찾아낸 공통된 패턴이 담겨 있습니다. 이 책과 함께 체계적인 머신러닝·딥러닝 문제해결 프로세스를 숙달해보세요. 단순 따라하기에서 벗어나, 어떤 점을 분석해야 하는지, 분석 결과를 어떻게 적용하는지, 이 기법이 왜 유용하고 어떻게 활용하는지까지 체계적으로 알려드립니다. 엄선한 7가지 대회로 기본기와 문제해결 능력을 확실하게 길러드립니다.

그리고 특별 선물 몇 가지!

  1. 공략집(with 미니맵) : 책의 내용을 가장 빠르고 효율적으로 체득하시길 바라는 마음에서 별책부록으로 간단한 공략집을 준비했습니다.
  1. 체크리스트 : 문제해결 과정에서 짚어봐야 할 사항들을 프로세스 단계별로 정리한 표입니다.
    자유롭게 수정·개선하여 여러분만의 비밀 무기로 활용해주세요.

저희가 준비한 선물이 이 책을 학습하는 데,
나아가 더 나은 데이터 과학자/머신러닝 엔지니어로 성장하는 데 조금이나마 보탬이 되기를 바랍니다.


캐글 UI 관련 최신 업데이트

캐글 사이트의 UI는 언제든 예고 없이 변경될 수 있으므로 1장, 2장, 6.2절의 내용을 온라인 문서로 공개해뒀습니다. 책의 설명과 달라져서 진행하기 어렵다면 이 문서를 참고해주세요.

예제 코드 캐글 노트북 목록

소개 영상

소개 영상을 만들어주신 박조은 님과 박재호 님께 감사드립니다.

Video Label Video Label

목차

  • 1부. 머신러닝 레벨업의 지름길, 캐글
    • 01장. 왜 캐글인가?
      • 1.1 왜 캐글을 해야 하는가?
      • 1.2 캐글 구성요소
      • 1.3 캐글러 등급
      • ___ 학습 마무리
    • 02장. 캐글 정복 첫걸음
      • 2.1 캐글 가입
      • 2.2 경진대회 참여
      • 2.3 주피터 노트북 설정
      • 2.4 결과 제출하기
      • 2.5 컨트리뷰터 되기
      • 2.6 예제 코드 캐글 노트북 복사하기
      • ___ 학습 마무리
    • 03장. 문제해결 프로세스 및 체크리스트
      • 3.1 머신러닝 문제해결 프로세스
      • 3.2 머신러닝 문제해결 체크리스트
      • 3.3 딥러닝 문제해결 프로세스
      • 3.4 딥러닝 문제해결 체크리스트
    • 04장. 데이터를 한눈에 : 주요 시각화 그래프
      • 4.1 데이터 종류
      • 4.2 탐색적 데이터 분석과 그래프
      • 4.3 수치형 데이터 시각화
      • 4.4 범주형 데이터 시각화
      • 4.5 데이터 관계 시각화
  • 2부. 머신러닝 문제해결
    • 05장. 다시 살펴보는 머신러닝 주요 개념
      • 5.1 분류와 회귀
      • 5.2 분류 평가지표
      • 5.3 데이터 인코딩
      • 5.4 피처 스케일링
      • 5.5 교차 검증
      • 5.6 주요 머신러닝 모델
      • 5.7 하이퍼파라미터 최적화
    • 06장. [경진대회] 자전거 대여 수요 예측
      • 6.1 경진대회 이해
      • 6.2 경진대회 접속 방법 및 세부 메뉴
      • 6.3 탐색적 데이터 분석
      • ___ 분석 정리 및 모델링 전략
      • 6.4 베이스라인 모델
      • 6.5 성능 개선 I : 릿지 회귀 모델
      • 6.6 성능 개선 II : 라쏘 회귀 모델
      • 6.7 성능 개선 III : 랜덤 포레스트 회귀 모델
      • ___ 학습 마무리
      • ___ 실전 문제
    • 07장. [경진대회] 범주형 데이터 이진분류
      • 7.1 경진대회 이해
      • 7.2 탐색적 데이터 분석
      • ___ 분석 정리 및 모델링 전략
      • 7.3 베이스라인 모델
      • 7.4 성능 개선 I
      • 7.5 성능 개선 II
      • ___ 학습 마무리
      • ___ 실전 문제
    • 08장. [경진대회] 안전 운전자 예측
      • 8.1 경진대회 이해
      • 8.2 탐색적 데이터 분석
      • ___ 분석 정리 및 모델링 전략
      • 8.3 베이스라인 모델
      • 8.4 성능 개선 I : LightGBM 모델
      • 8.5 성능 개선 II : XGBoost 모델
      • 8.6 성능 개선 III : LightGBM과 XGBoost 앙상블
      • ___ 학습 마무리
    • 09장. [경진대회] 향후 판매량 예측
      • 9.1 경진대회 이해
      • 9.2 탐색적 데이터 분석
      • ___ 분석 정리 및 모델링 전략
      • 9.3 베이스라인 모델
      • 9.4 성능 개선
      • 9.5 머신러닝 경진대회를 마치며
      • ___ 학습 마무리
  • 3부. 딥러닝 문제해결
    • 10장. 다시 살펴보는 딥러닝 주요 개념
      • 10.1 인공 신경망
      • 10.2 합성곱 신경망(CNN)
      • 10.3 성능 향상을 위한 딥러닝 알고리즘
    • 11장. [경진대회] 항공 사진 내 선인장 식별
      • 11.1 경진대회 이해
      • 11.2 탐색적 데이터 분석
      • ____ 분석 정리 및 모델링 전략
      • 11.3 베이스라인 모델
      • 11.4 성능 개선
      • ____ 학습 마무리
    • 12장. [경진대회] 병든 잎사귀 식별
      • 12.1 경진대회 이해
      • 12.2 탐색적 데이터 분석
      • ____ 분석 정리 및 모델링 전략
      • 12.3 베이스라인 모델
      • 12.4 성능 개선
      • ____ 학습 마무리
      • ____ 실전 문제
    • 13장. [데이터셋] 흉부 엑스선 기반 폐렴 진단
      • 13.1 경진대회 이해
      • 13.2 탐색적 데이터 분석
      • ____ 분석 정리 및 모델링 전략
      • 13.3 베이스라인 모델
      • 13.4 성능 개선
      • ____ 학습 마무리
  • 부록 A. 캐글 생활백서
    • A.1 피처 요약표
    • A.2 메모리 절약을 위한 데이터 다운캐스팅
    • A.3 디버깅을 위한 간단한 팁
    • A.4 훈련된 모델 저장하고 불러오기

저자 소개

신백균 KAIST 산업및시스템공학과 졸업 후 한국생산성본부에서 직무교육 기획 및 운영을 담당하는 전문위원입니다. 세계 랭킹 0.18%의 캐글 노트북 엑스퍼트(Expert)이며, 월 평균 6만여 명이 방문하는 데이터 분석/머신러닝 관련 기술 블로그를 운영하고 있습니다. 참여자 1,200명 이상인 머신러닝 관련 오픈 채팅방의 운영진이기도 합니다.

블로그 https://bkshin.tistory.com


추천사

머신러닝·딥러닝 초보자

“처음부터 끝까지 하나도 버릴 것 없는 정말 알뜰한 책이란 생각이 듭니다. 이제 갓 머신러닝·딥러닝에 입문한 분들께 이 책으로 기본기를 다져보라고 무조건 추천하고 싶네요!”

이동훈 | 경북대학교 학부생

“많은 사람이 인공지능에 관심을 갖고 도전하고 있습니다. 그러나 개념과 실제 적용 사이에는 크나큰 괴리가 있어서 실전에 들어선 초심자들은 대체로 갈피를 잡지 못하고 헤매게 됩니다. 이 책은 개념과 코드 구현을 유기적으로 연결해주어 초심자도 쉽게 따라올 수 있도록 일관된 프로세스를 제시합니다. 그래서 이 책으로 기반을 닦아 여러 문제에 도전하며 실력을 향상시키다 보면, 어느새 인공지능 전문가가 되어 있을 것 같습니다.”

신원지 | 연세대학교 학부졸업생(취준생)

“요즘 정말 ‘핫’한 캐글! 하지만 머신러닝·딥러닝의 기초를 익혔다고 해도 캐글을 혼자서 정복하기란 쉽지 않은 것 같습니다. 이 책은 캐글을 아주 쉽게 익힐 수 있는 멋진 지침서입니다. 책의 내용을 하나 하나 따라가다 보면, 막막했던 캐글 경진대회도 어느새 어렵지 않게 느껴질 것입니다.”

이승엽 | 서울과학종합대학원 석사과정(AI·빅데이터 MBA)

현업 데이터 과학자, 머신러닝 엔지니어

“어떤 일이든 일정 수준에 도달하면 경험적으로 최적화된 패턴이 생기기 마련입니다. 이 책은 수많은 캐글 대회와 솔루션을 수집/분석하여, 여러분께 체계적으로 머신러닝·딥러닝 문제를 해결할 수 있는 패턴을 제공합니다. 여러분만이 다뤄낼 수 있는 핵심에서만 새로운 방식을 시도하시고, 그 외 최적화된 공통 패턴은 이 책을 그대로 흡수하세요. 이를 토대로 여러분에게 좀 더 잘 맞는 문제해결 전략을 체득할 수 있을 것입니다.”

박찬성 | ML GDE(Google Developer Expert)

“이 책은 머신러닝 기초를 학습한 사람이 그다음 학습은 어떻게 이어가고, 프로젝트는 어떻게 진행해야 하는지를 중점적으로 다룹니다. 이는 앞으로의 머신러닝 책들이 나아가야 할 방향이기도 한 것 같습니다. 머신러닝 프로젝트를 진행하면서 온갖 난관에 부딪히며 고민하고 있는 분들께 이 책을 추천합니다.”

조성빈 | 코드스테이츠 코칭 어시스턴트

“캐글은 얻기 힘든 현실 데이터를 간접 경험할 수 있는 아주 좋은 커뮤니티입니다. 하지만 초보자 입장에서는 대회나 데이터가 너무 많아서 어떤 대회부터 참가할지 고민하게 되는데, 여기 이 책에 막 시작하려는 캐글러를 위한 ‘비밀지도’가 있습니다.”

박조은 | 오늘코드 대표(데이터 분석가)

“저는 IT 전공자이지만 머신러닝·딥러닝 기초가 없는 상태로 현업에 투입되었습니다. 어떤 분야든 뼈대부터 튼실히 갖춰야 한다는 게 저의 생각이기 때문에 ‘기초를 보다 쉽고 재미있게 배울 수는 없을까’라는 고민을 많이 해왔습니다. 이 책은 이러한 제 고민의 해결책 중 하나라고 봅니다. 책의 구성이나 예제가 뭐 하나 빠질 것 없이 마음에 듭니다. 사실 배타리딩 기간에 DACON 대회에도 참여했는데, 이 책의 도움을 많이 받았습니다. 너무 감사합니다.”

김대원 | (주)인타운 부설연구소 연구원

“사실 지금도 스크롤 압박이 거셀 만큼 매우 많은 인공지능 서적이 출간되어 있습니다. 그럼에도 이 책을 추천하는 이유는 이 책이 지닌 명확한 장점 때문입니다. 저 또한 수많은 관련 책을 탐독했지만 대부분 이론 설명과 간단한 예제로 구성되어 있습니다. 하지만 이 책은 멋진 예제와 함께 현업 엔지니어가 문제를 어떻게 접근하고 어떤 식으로 마지막까지 성능을 끌어올리는지에 대한 실무까지 겸비했습니다. 초보자는 물론이고, 머신러닝·딥러닝 개발 경력이 있는 개발자에게 오히려 더 유용한 참고서입니다.”

임은수 | ViewMagine 팀 리드

“이 책은 데이터 과학의 기술적인 측면을 학습한 이가 캐글을 통해서 그 기술을 어떻게 체계적으로 활용할지를 알려줍니다. 자신만의 분석 프로세스를 체계화해주고 실제 업무에도 적용해볼 수 있는 매력적인 책을 꼭 읽어보시길 바랍니다.”

이봉호 | 우아한형제들 데이터분석가

“실제로 캐글을 처음 접하는 분들은 대부분 캐글 노트북을 필사하는 것으로 시작합니다. 그러나 필사만 반복해서는 놓치는 부분이 생깁니다. 이 책은 프로세스와 체크리스트를 제공하여 이런 부분을 놓치지 않게 예방해주어, 초심자는 물론 이미 캐글에 익숙하신 분께도 유용합니다. 고득점자 분들도 최고득점에 도전해보시려면 이 책을 한 번 읽어보시길 추천드립니다.”

하현진 | 세이지 리서치 책임 연구원

“머신러닝·딥러닝 문제해결 프로세스를 캐글 경진대회를 통해 독자들에게 이해하기 쉽게 전달하는 탄탄한 구성이 매우 좋았습니다. 입문하려는 독자들이 흥미를 잃지 않고 문제해결 역량을 키워나갈 수 있으리라 생각합니다.”

강경수 | 삼육대학교 연구원 및 비전임 교수


Must Have 시리즈 안내

Must Have 시리즈는 내 것으로 만드는 시간을 드립니다. 명확한 학습 목표와 핵심 정리를 제공하고, 간단명료한 설명과 다양한 그림으로 학습 효과를 극대화합니다. 예제를 제공해 응용력을 키워줍니다. 할 수 있습니다. 포기는 없습니다. 지금 당장 밑줄 긋고 메모하고 타이핑하세요! Must Have가 여러분의 성장을 돕겠습니다.