Stay Hungry Stay Foolish

혼공머신 3

3장 회귀 알고리즘과 모델 규제

지도 학습 알고리즘은 크게 분류와 회귀로 나뉜다. 분류는 2장에서 다뤘고, 3장에서는 회귀를 배운다. Regression : 클래스 중 하나로 분류하는 것이 아니라 임의의 어떤 숫자를 예측하는 문제이다. ※ 19세기, 통계학자이자 사회학자인 Francis Galton이 처음 사용한 용어다. 두 변수 사이의 상관관계를 분석하는 방법을 회귀라고 불렀다. 2장에서 사용했던 k-Nearest Neighbor Algorithm이 회귀에도 작동한다. k-최근접 이웃 분류 알고리즘은 예측하려는 샘플에 가장 가까운 샘플 k개를 선택하고, 이 샘플들의 클래스를 확인하여 그 중 다수 클래스를 새로운 샘플의 클래스로 예측한다. k-최근접 이웃 회귀 알고리즘은 예측하려는 샘플에 가장 가까운 샘플 k개를 선택한다. 이웃과 다르..

혼공/머신러닝 2022.08.13

2장 데이터 다루기

머신러닝 알고리즘은 크게 지도 학습(supervisid learning)과 비지도 학습(unsupervised learning)으로 나뉜다. 지도 학습 알고리즘이란? - 정답(타깃)이 있으니 알고리즘이 정답을 맞히는 것을 학습한다. - 훈련하기 위한 데이터와 정답이 필요하다. 비지도 학습 알고리즘이란? (6장에서 다룸) - 타깃 없이 입력 데이터만 사용한다. - 따라서 무언가를 맞힐 순 없지만 데이터를 잘 파악하거나 변형하는 데 도움을 준다. 지도 학습에서는 데이터를 입력(input), 정답을 타깃(target)이라고 하고, 이 둘을 합쳐 훈련 데이터(training data)라고 부른다. 머신러닝 알고리즘의 성능을 제대로 평가하려면 훈련 데이터와 평가에 사용할 데이터가 각각 달라야 한다. 가장 간단한 ..

혼공/머신러닝 2022.07.22

1장 머신러닝이란?

머신러닝(Machine Learning)이란? - 규칙을 일일이 프로그래밍 하지 않아도 자동으로 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야 - 지능을 구현하기 위한 소프트웨어를 담당하는 핵심 분야 - 보통의 프로그램과 달리 누구도 알려주지 않는 기준을 찾아서 일을 함 대표적인 머신러닝 라이브러리 - 사이킷런(scikit-learn) : 파이썬 API를 사용 Google Colab - 머신러닝을 학습하기 위한 서비스 구글 코랩으로 머신러닝 실습해보기 '생선 분류 문제' - 도미와 빙어를 분류하기(이진 분류 : 2개의 클래스 중 하나를 고르는 문제) 1. 도미와 빙어 데이터 준비 위는 도미와 빙어의 길이 및 무게 데이터를 나타낸 것이다. Bream은 도미를 의미하고, Smelt는 빙어를 의미한다. ..

혼공/머신러닝 2022.07.08