ML(3)
-
[ML] Linear Regression 정리
Linear Regression(선형 회귀)는 독립 변수와 종속 변수 사이의 관계를 직선 형태로 모델링 하는 기법이다. y = wx + bw: (weight)b: (bias)기본 식은 위와 같다고 볼 수 있지만, feature의 수가 늘어나면 다차원 형태의 식이 될 수도 있다.weight는 각각의 feature의 importance에 따라 값이 달라지기 때문에 feature의 값 만큼 weight의 개수도 달라진다.여기서 우리는 최적의 weight 값을 찾는 것을 목표로 모델 학습을 진행한다. 그렇다면 Linear Regression을 어디에 쓸 수 있을까?예를 들면 공부 시간과 내 시험 점수, 집 평수에 따른 월세 가격, 나이에 따른 실업률 추정 등등이 Linear Regression의 예시가 될 수 ..
2025.05.27 -
[ML] Azure 클라우드 기반 머신러닝 실습 - 다중 선형 회귀
오늘은 자전거 대여에 관한 정보 및 데이터들을 수집하여, 자전거 렌탈 수요 예측 모델을 만들어 보는게 목표이다.Azure에서 제공하는 Machine Learning Studio로 실습을 진행할 예정이다.Azure에서는 데이터의 흐름과 모델 학습까지의 머신러닝을 파이프라인으로 구성할 수 있어, 사용자에게 조금 더 복잡하지 않고, 직관적으로 보여주기 때문에 머신러닝에 익숙하지 않은 사람들도 쉽게 이용을 할 수 있게 서비스를 제공하고 있다. "UCI" 사이트에 가면 여러가지 데이터들을 받아서 볼 수 있다.나는 그 중 "Bike Sharing Dataset"을 이용하였다. 실습에 들어가기 앞서, 다중 선형 회귀(Multi Linear Regression)에 대해서 간략히 설명을 하고 넘어가보자.다중 선형 회귀(..
2025.05.16 -
[ML] 머신러닝 모델 검증을 위한 레코드 분할
오늘 배운 내용을 복습할 겸, 머신러닝 모델 검증을 위한 레코드 분할에 대해서 다뤄 보려고 한다.학습용과 검증용 데이터 나누기 데이터 분할은 예측 모델을 평가할 때 필요한 전처리이다.학습 데이터와 검증 데이터는 같은 전처리를 적용해야 하며(스케일링, 결측치 처리 등), 되도록 같은 데이터로 묶어서 다루고,예측 모델에 입력하기 직전 분할하는 것이 적절하다. 적용 데이터는 정답을 알 수 없는 상태에서 사용하는 데이터이다. 그러므로 흐름이나 수집 시점이 다르기 때문에, 분할할 필요가 없다.쉽게 말해서, 어차피 "평가용" 데이터가 아니고, 실제로 사용 되는 "운영용" 데이터니까 분할할 필요가 없다. 위 이미지와 같이 교차 검증은 데이터를 검증용 데이터 / 학습용 데이터로 구분한다.from sklearn.mode..
2025.05.07