머신러닝 & 딥러닝
-
머신러닝 - Logistic Regression머신러닝 & 딥러닝/머신러닝 기초 2024. 3. 4. 14:41
머신러닝에서 예측 모델 머신러닝은 지도학습, 비지도학습, 강화학습으로 나눌 수 있었다. 그 중 지도학습에는 Classification과 Regression이 있었다. Classification은 예측 모델링의 하나로 mapping function을 input X에서 discrete한 변수 Y로 근사화하는 것이다. 이 과정에서 learning parameter를 기준으로 데이터 셋을 다른 클래스로 나눌 함수를 찾는다. Regression은 예측 모델링의 하나로 mapping function을 input X에서 continuous한 변수 Y로 근사화하는 것이다. Continuous한 output은 부동 소수점, 정수와 같은 실수값을 포함하는 변수를 뜻한다. 여기서 mapping function이란 모델 학습..
-
머신러닝 - Linear Regression머신러닝 & 딥러닝/머신러닝 기초 2024. 2. 8. 12:22
Regression이란?? 머신러닝은 지도학습, 비지도학습, 강화학습으로 나눌 수 있었다. 그 중 지도학습은 Classification, Regression으로 나눌 수 있었다. 그렇다면 Regression이란 무엇일까?? Regression은 변수들의 집합 X가 주어지면 한 변수 Y를 예측하는 것이다. Regression에서 Y는 numeric이다. 즉, Regreesion은 선형 또는 비선형 모델을 가정하는 것으로 주식 시장 예측, 매출 예측 등을 예로 들 수 있겠다. 따라서 Regression은 일반적으로 numerical한 데이터들을 분석하고 모델링하는데 사용되는 기술이다. Linear Regression이란?? Linear Regression이란 예측 함수가 입력 feature들의 선형 조합으로..
-
머신러닝 - Performance Metrics (평가지표)머신러닝 & 딥러닝/머신러닝 기초 2024. 1. 24. 14:17
머신러닝 모델 평가 Bias와 Variance를 이해하면서 머신러닝의 목표는 Generalization error와 Training error를 최소화 하는 것이라고 이해했다. 그럼 머신러닝 모델을 평가하기 위해서는 어떻게 해야할까? 머신러닝은 크게 지도학습, 비지도학습, 강화학습로 구분할 수 있었다. 그 중 지도학습은 Classification, Regression으로 나눌 수 있었다. Classification 평가를 위해 여러가지 평가지표들이 있는데 이것들에 대해서 간단히 알아보자. 성능측정 머신러닝 모델 성능을 측정하기 위해 우리는 예측 값들이 결과 값들과 얼마나 근사한지 측정해야한다. Confusion Matrix를 사용해서 실제 라벨과 예측 라벨의 일치 개수를 matrix로 표현할 수 있다. ..
-
머신러닝 - 지도학습, 비지도학습, 강화학습머신러닝 & 딥러닝/머신러닝 기초 2024. 1. 22. 13:13
머신러닝이란?? 머신러닝이란 사람이 모든 조건을 코딩해서 기계에게 알려주는 것 대신에 기계가 데이터로부터 학습하여 실행할 수 있도록 하는 알고리즘을 연구하는 분야이다. 즉, 컴퓨터 시스템이 데이터를 학습할 수 있는 능력을 부여하는 것이라고 말할 수 있다. 머신러닝의 종류에는 지도학습, 비지도학습, 강화학습, 준지도학습이 있다. 그 중 지도학습, 비지도학습, 강화학습의 개념에 대해서 간단히 알아보자. 지도학습이란? 지도학습은 Classification, Regression으로 나뉜다. Classification은 다양한 파라미터를 기반으로 데이터셋들을 클래스로 분할하는데 도움이 되는 함수를 찾는 것이다. Regression은 변수 집합 X가 주어지면 Y를 예측하는 것이다. 여기서 Y는 Numeric이다. ..
-
머신러닝 - Bias and Variance trade-off머신러닝 & 딥러닝/머신러닝 기초 2024. 1. 9. 13:53
머신러닝에서 underfitting과 overfitting이란 좋은 머신러닝 모델은 학습 결과와 테스트 결과와의 차이가 적어야한다. 모델이 너무 단순하면 높은 bias로 underfitting 되며 모델이 너무 복잡하면 높은 variance로 overfitting된다. underfitting이란 모델이 너무 단순해서 부족하게 학습되는 것을 뜻한다. 이 경우는 단순히 모델을 교체해주면 되므로 큰 문제가 되지는 않는다. overfitting이란 학습 데이터에서 높은 성능을 보이지만 테스트 데이터에서 낮은 성능을 보이는 것을 뜻한다. 이 경우는 hyper-parameter를 조정하는 등의 방식으로 모델을 개선할 수 있다. Traning error는 학습 데이터 셋에서 발생하는 에러이며 Generalizatio..
-
딥러닝 학습 - 역전파, 경사하강법머신러닝 & 딥러닝/딥러닝 기초 2023. 12. 19. 14:34
딥러닝 딥러닝은 머신러닝 방법 중 하나였다. 인공신경망이라는 것이 데이터를 구분할 수 있는 곡선을 만드는 것이었다. 한번으로는 복잡한 데이터 분포를 잘 구분할 수 없었기 때문에 곡선을 만드는 과정을 여러번 수행하자는 아이디어가 딥러닝이었다. 이 방법이 아직까지 성능이 좋아 AI 분야에 대부분 사용되고 있는 기술이다. 딥러닝의 학습 방법에서 알아야하는 개념에는 결정 경계, 목적 함수, 경사하강법, 역전파 등이 있다. 결정 경계란 우리가 데이터를 구분하기 위해 만들었던 곡선이다. 목적 함수란 사칙연산을 통해 우리의 의도를 표현한 함수를 뜻한다. 컴퓨터에게 목적지까지 어느 방향으로 움직여야 하는지 알려주는 것을 경사 하강법이라고 하며 컴퓨터가 움직이는 방법을 역전파라고 한다. 결정 경계 (Decision Bo..
-
딥러닝머신러닝 & 딥러닝/딥러닝 기초 2023. 12. 15. 14:41
딥러닝이란? 딥러닝은 머신러닝의 방법 중 하나였다. 하나의 경계선만으로 데이터를 구분할 수 없기 때문에 경계선을 배치하는 작업을 여러번 수행하는 것이 딥러닝이었다. 인공신경망 우리는 파랑색과 노랑색을 분리해야한다. 인공신경망은 위 그림과 같이 구불구불한 선을 잘 사용해서 데이터를 구분하는 방법이다. Training을 했다면 Test 데이터 셋으로 성능을 측정해야한다. 컴퓨터에게 구불구불한 선은 무엇일까? 컴퓨터는 사칙연산을 통해서 표현한다. 즉 직선, 곡선 함수를 조합하여 표현한다. 1) 퍼셉트론 위 이미지와 같이 직선 위에 있는 점들의 좌표값을 더하면 같은 값을 갖게된다. 예를 들어 (1, 3), (3, 1)에 위치한다고 가정하면 좌표들의 합은 4로 같게된다. k = x1 + x2의 형태가 된다. 즉,..
-
머신러닝머신러닝 & 딥러닝/딥러닝 기초 2023. 12. 14. 14:20
머신러닝이란 사람이 모든 조건을 코딩해서 컴퓨터에게 알려주는 것이 전문가 시스템이었다. 머신러닝은 컴퓨터에게 데이터 분포를 주고 컴퓨터가 스스로 규칙을 찾게 하는것이다. 위 그림과 같은 데이터 분포가 있다고 가정해보자. 이 데이터 분포를 갖고 컴퓨터에게 파랑색과 노랑색을 가르쳐주기 위해 어떻게 해야할까? 첫째로 학습용 데이터셋을 제공해준다. 학습용 데이터셋이란 컴퓨터가 보고 학습하기 위한 데이터셋이다. 컴퓨터에게 문제와 정답지 모두 제공하여 틀렸을 경우 반복해서 학습하게 한다. 두번째로 시험용 데이터셋을 제공해준다. 컴퓨터가 학습용 데이터셋으로 학습을 완료하면 얼마나 잘했는지 테스트하기 위한 데이터셋을 시험용 데이터셋이라고 한다. 학습용 데이터셋과 시험용 데이터셋의 데이터는 겹치면 안된다. 따라서 시험용..