Yeon blog

전체 글 22

What is Gradient Descent? 이전 시간에 리뷰했던 Linear Regression에서 우리는 데이터에 대한 cost function(or loss, error)를 정의하여 cost function의 기울기 베타를 적절하게 조절하여 Training data에 맞는 cost function을 만들었습니다. 이때, '기울기를 어떻게 optimal 하게 만드냐'에 대한 문제로 cost function을 베타에 대해 미분하여 미분 값이 0에 가까워지는 베타를 찾아 적절한 기울기를 찾을 수 있었습니다. 물론 이후에 overfitting을 방지하기 위해 라쏘나 릿지 같은 방법에 대해 다뤘습니다. 하지만 이런 방법은 simple model에 대해서만 한정적이고 조금 더 복잡한 모델에 대해서는 단순한 ..

Machine learning 2021.09.25

Linear Regression

Regression? Supervised learning은 레이블링 된 Training data를 학습하여 하나의 모델(함수)을 만들고, 이후에 만들어진 모델에 레이블링 되지 않는 Test data를 집어넣어 입력된 data에 대한 맞는 답을 찾는 과정을 말합니다. 이때 레이블링 된 답이 어떤 형태인지에 따라 모델은 분류 또는 회귀 과정을 통하여 답을 예측합니다. 예를들어 아래의 그림과 레이블링 된 값이 서로 딱딱 떨어지게 구분되는 경우는 입력 데이터가 A냐 B냐 C냐 완벽하게 서로 완벽하게 구분하면 이것을 '범주형 데이터'라 말하고, 레이블링이 범주형 데이터로 이루어진 학습 모델의 경우 각각의 값을 구별해내는 분류(Classification)를 이룹니다. 반면에 사람의 키와 몸무게에 대해 어떠한 범위 ..

Machine learning 2021.09.22

Random Forest

What is Random Forest? 랜덤 포레스트는 말 그대로 결정 트리(Decision tree)들이 모여 랜덤 포레스트를 구성합니다. 기존의 결정 트리의 단점은 Training data에 대해서 Overfitting이 된다는 경향이 있습니다. 하지만 여러 개의 결정 트리를 통해 랜덤 포레스트를 만들면 오버 피팅이 되는 단점을 해결할 수 있습니다. 물론 다른 결정트리들이 오버 피팅이 될 수 있지만 다수의 결정 트리들로 예측하기 때문에 그 영향력이 줄어들어 좋은 일반화 성능을 낼 수 있습니다. 일반적으로 랜덤 포레스트를 구성하기 위해서는 적게는 500개 ~ 많게는 10,000개의 결정 트리들을 사용한다고 합니다. Random Forest State 1. 먼저 입력 데이터들에 대한 Bootstrap ..

Machine learning 2021.09.20

Decision Tree

What is Decision tree? 결정 트리는 분류(Classification)와 회귀(Regression) 모두 가능한 지도 학습 모델 중 하나입니다. input 데이터들에서 우리가 원하는 데이터들을 예측 가능한 규칙들로 하나하나 분기(branch)로 만들어 Yes or No에 대한 의사결정을 내리는 구조이기도 합니다. 마치 그 구조가 '나무'와 같다고 해서 'Decision tree'라고 불립니다. Decision tree는 Non-leaf node(branch), leaf node 만으로 구성되어 있는데, 아래의 그림을 보시면 조건식(ex: x < a)이 있는 부분이 branch(non-leaf node)이고 더이상 조건식에 들어갈 수 없는 데이터(ex: w)들은 하나의 leaf입니다. 조금..

Machine learning 2021.09.19

correlation coefficient (피어슨 상관계수)

소개 상관계수란? 두 확률변수 X, Y 사이의 상관관계의 정도를 나타내는 수치입니다. 즉, 상관계수는 인과성이 아닌 연관성만 확인이 가능합니다. 이전 포스트 공분산에서 다뤘던 공분산의 크기는 상관관계의 절대적인 크기 자체를 의미하는 것이 아닙니다. 공분산은 두 확률변수 X, Y의 scale에 크게 영향을 받기 때문입니다. 예를 들어, 공분산의 단위는 X의 단위 * Y의 단위를 곱한 단위로 이루어지기 때문에 단위가 다른 확률변수들의 공분산들은 그 값을 비교하기 어렵습니다. 그렇기에 상관 정도의 절대적인 크기를 측정할 수 있도록 해주는 것이 바로 상관계수입니다. 상관계수는 여러 가지 종류가 있는데 피어슨 상관계수, 스피어만 순위 상관계수, 켄탈의 타우 가 존재합니다. 간단하게 보면, 피어슨 상관계수 - 숫자..

Machine learning 2021.08.24

covariance matrix (공분산 행렬)

소개 공분산은 공+분산이 합쳐진 단어인데, 여기서 공(共)은 한자로 (함께, 여럿)을 뜻하는 공입니다. 따라서 공분산은 여럿으로 구한 분산을 의미합니다. 즉, 변수 하나로 구한 분산이 아니라 변수 여럿으로 구한 분산입니다. 결론부터 말하면 확률변수 '둘'로 구한 분산 값입니다. 그렇다면 공분산에 대한 이야기를 하기 전에 분산의 정의에 대해 짚고 넘어가겠습니다. 분산의 정의 어떤 변수 X의 분산은 아래와 같이 정의됩니다. 이때 만약에 대문자 X가 이산확률변수이고, 각 원소의 발생 확률이 같은 경우 아래와 같이 구합니다. 이산확률변수란? 확률변수 X가 취할 수 있는 값이 유한하기 때문에 셀 수 있는 확률변수이다. 예를 들어 '한 개의 동전을 두 번 던질 때 옆면이 나오는 횟수'와 '한 개의 주사위를 두 번 ..

Machine learning 2021.08.21

Linear kalman filter (LKF)

선형 칼만 필터란? 칼만 필터는 dynamic system 같은 확실한 정보가 있지 않은 곳에 사용될 수 있으며, 이 시스템이 다음에 수행할 task에 대해 추측을 할 수 있습니다. 그리고 칼만 필터는 센서를 통해 추측한 정보에 끼여있는 노이즈 제거에도 좋은 역할을 합니다. 이 필터에 이상적인 시스템은 매 시간 혹은 매 프레임마다 변화하는 시스템에 이상 적라고 생각합니다. 왜냐하면 어떤 시퀀스에 필요한 연산 작업에 많은 데이터양이 아닌 이전 데이터 이외의 데이터는 유지할 필요가 없기 때문입니다. 그렇기 때문에 비교적 빠른 연산 과정으로 실시간 문제 해결 및 저전력 PC, 임베디드 시스템에 적합합니다. 칼만 필터 적용 사례 칼만 필터에 대한 이야기를 시작하기 전에 간단하게 칼만 필터를 어떤 식으로 활용하는..

Machine learning 2021.08.08

Bayes decision rule - 2

지금껏 해온 이야기는 우리가 한탄강에서 낚시를 했을 때 잉어와 붕어에 대한 classification을 이루기 위해 한 가지 feature(물고기의 길이)를 사용하여 PDF 그래프를 만들고 사후 확률을 계산해 가장 높은 확률을 가진 class에 대한 의사결정(decision making)이 이루어졌다. 여기서 또 한가지 생각을 해야 하는 건 우리의 낚시 방법(action)이다. 어떤 action을 취해야 낚싯대를 잃어버릴(loss)가 적은지 그리고 우리가 낚시를 하는 동안 물에 빠질(Risk)가 얼마나 작은지에 대한 고려를 해야 Risk가 적은 action을 취해 posterior probability이 높은 decision을 이루는 것이 우리가 여태껏 달려온 Optimal statistical clas..

Machine learning/Optimal statistical calssifier 2021.07.18

Bayes decision rule - 1

INTRODUCTION Classification의 문제는 샘플 공간 X에 존재하는 샘플 {x1, x2,⋯ } ∈ X 각각에 대해서 이 샘플들은 어떤 클래스 y ∈ Y로 분류할 것인가에 관한 문제로 생각할 수 있다. 일반적으로 이러한 문제에 대해 우리는 예로 Classifier f라는 함수를 정의할 수 있다. Classifier f:X⟼Y는 주어진 샘플 공간(X)으로부터 클래스 공간(Y)으로 Mapping 해주는 함수라고 정의할 수 있을 것이다. 예를 들어 여러 애완동물 중(X) 강아지냐 아니냐에 대한 Class((Y={0,1})로 분류하는 Classifier f를 예시로 들어보자 f는 다음과 같아진다. f(cat) = 0, f(Lion) = 0, f(Welsh Corgi) = 1, f(Pomerania..

Machine learning/Optimal statistical calssifier 2021.07.17

FairMOT : On the Fairness of Detection and Re-Identification in Multiple Object Tracking

Paper : https://arxiv.org/pdf/2004.01888.pdf Github : https://github.com/ifzhang/FairMOT ifzhang/FairMOT A simple baseline for one-shot multi-object tracking - ifzhang/FairMOT github.com FairMOT : On the Fairness of Detection and Re-Identification in Multiple Object Tracking Yifu Zhang∗, Chunyu Wang∗, Xinggang Wang†, Wenjun Zeng, Wenyu Liu Abstrat 최근 몇 년 동안 다중 객체 추적(MOT)의 핵심 구성 요소인 객체 감지(object ..

Paper Review 2021.07.15

1 2 3

개인적으로 공부하면서 차근차근 저장해가는 공간입니다

Machine Learning, conjugate prior, categorical distribution, Orthogonal vector, ML, eignevalue, life long, cost function, Bernoulli Distribution, 고유값분해, Support Vector Machine, Bayes, 피타코라스, 정규직교, 이항분포 평균 분산, eigendecomposition, orthogonalmatrix, 이산확률분포, experience navigation, orthogonal,

Today :
Yesterday :

« 2025/09 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

전체 글 22

티스토리툴바