논문을 읽기 앞서 CT image의 Dicom 파일과 뇌출혈 subtype에 관해 알아보자. 1. Dicom 파일이란?DICOM은 의학 분야의 Digital Imaging and Communications의 약자이다. 초음파 및 MRI 이미지와 같은 의료 정보를 환자의 정보와 함께 하나의 Dicom 파일에 저장할 수 있다. dicom 파일 여는 법 pydicom libraray를 설치 후에 사용 할 수 있다. 데이터 안에는 다음과 같은 meta 정보가 포함되어 있다.meta 정보에는 이미지 사이즈, Window 사이즈, 환자 정보, Study Instance UID, Series Instance UID등이 포함되어 있다. data = pydicom.read_file('/content/ID_00001..
데이터 전처리(Data Processing or Cleansing)은 머신러닝 알고리즘 만큼 매우 중요합니다. 데이터 전처리 방법에는 다양한 방법들이 있는데요. 그 중에 문자열 데이터를 수치화 시켜주는 인코딩 방법과 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 피쳐 스케일링 (정규화, 표준화) 에 관해 실습해 보겠습니다. # 1. 데이터 인코딩 머신러닝을 위한 대표적인 인코딩 방식은 크게 레이블 인코딩(Label Encoding)과 원-핫 인코딩(One Hot Encoding) 방법이 있습니다. 1-1. 레이블 인코딩 사이킬런의 레이블 인코딩을 인포트 해옵니다. LabelEncoder를 객체로 생성한 후 fit() 과 transform()을 호출해 레이블 인코딩을 수행합니다. 각 문자열이 숫자로 ..
안녕하세요 :) 프록굥입니다. 오늘부터 "파이썬 머신러닝 완벽 가이드"를 바탕으로 머신러닝 실습을 해보며 정리를 해볼까 합니다. 실습하기 앞서 "파이썬 머신러닝 완벽 가이드" 책에 관해 살짝 언급하고 가자면, 본 책은 Kaggle에 있는 데이터들을 각 챕터에 나눠서 차근히 따라 해 보며 해 볼 수 있는 머신러닝 가이드 책입니다. 본 책의 가장 큰 장점이라면 정말 유용하게 쓰이는 다양한 기법들과 분석 pipeline 대로 Kaggle 대회를 그대로 실습해 볼 수 있는 점입니다. python 기초는 있는데 분석을 어떻게 해야 될지 모르시는 분들이나 조금 더 세부적으로 모델 성능 개선을 위한 기법을 정리하고 싶은 분들이 차근히 따라 해 보시면 좋을 것 같아요! 이 책의 가격은 3만 원 넘었던 것 같아요. 추천..