코딩의 숲

NMF(Non - Negative Matrix Factorization)

2020.08.23·

머신러닝

NMF(Non - Negative Matrix Factorization) NMF는 Truncated SVD와 같이 낮은 랭크를 통한 행렬 근사 방식의 변형이다. NMF는 원본 행렬 내의 모든 원소 값이 모두 양수라는것이 보장되면 다음과 같이 좀 더 간단하게 두 개의 기반 양수 행렬로 분해 될 수 있는 기법을 지칭한다. 이렇게 분해된 행렬은 잠재 요소를 특성으로 가지게 된다. 분해 행렬 W는 원본 행에 대해서 이 잠재 요소에 값이 얼마나 되는지에 대응하며, 분해 행렬 H는 이 잠재 요소가 원본 열 (즉, 원본속성)으로 어떻게 구성됐는지를 나타내는 행렬이다. NMF는 SVD와 유사하게 차원 축소를 통한 잠재 요소 도출로 이미지 변환 및 압축, 텍스트의 토픽 도출등의 영역에서 사용되고 있다. 사이킷런에서 NM..

Truncated SVD

2020.08.23·

머신러닝

Truncated SVD 를 이용한 행렬 분해 Truncated SVD는 Sigma 행렬에 있는 대각원소 ,즉 특이값 중 상위 일부 데이터만 추출해 분해하는 방식이다. 이렇게 분해하면 인위적으로 더 작은 차원의 U,∑, V^T를 분해하기 때문에 원본 행렬을 정확하게 원복할 수 없다. 그러나 데이터 정보가 압축되어 분해됨에도 불구하고 상당한 수준으로 원본 행렬을 근사 할 수 있다. Truncated SVD는 넘파이가 아닌 사이파이에서만 지원된다. 사이파이는 SVD뿐만 아니라 Truncated SVE도 지원한다. 일반적으로 사이v파이 SVD는 scipy.linalg.svd를 이용하면되지만 Truncated SVD는 희소 행렬로만 지원 돼서 scipy.sparse.linalg.svds를 이용 해야한다. imp..

SVD

2020.08.23·

머신러닝

SVD SVD 역시 PCA와 유사한 행렬 분해 기법을 이용한다. PCA의 경우 정방행렬 만을 고유벡터로 분해 할 수 있지만, SVD는 정방행렬 뿐만 아니라 행과 열의 크기가 다른 행렬 에도 적용할 수 있다. 일반 적으로 SVD는 m x n 크기의 행렬 A를 다음과 같이 분해하는 것을 의미한다. SVD는 특이값 분해로 불리며, 행렬 U와 V에 속한 벡터는 특이 벡터이며, 모든 특이 벡터는 서로 직교하는 성질을 가진다. ∑는 대각행렬이며, 행렬의 대각에 위치한 값만 0이 아니고 나머지 위치의 값은 모두 0이다. ∑가 위치한 0이 아닌 값이 바로 행렬 A의 특이값이다. 하지만 일반적으로 ∑ 의 비대각인 부분과 대각 원소중에 특이값이 0 인 부분도 모두 제거 하고 제거된 ∑에 대응되는 U와 V원소도 함께 제거해..

LDA (Linear Discriminant Analysis)

2020.08.22·

카테고리 없음

LDA (Linear Discriminant Analysis) LDA는 선형 판별 분석법으로 불리며, PCA와 매우 유사하다. LDA는 PCA와 유사하게 입력 데이터 셋을 저차원 공간에 투영해 차원을 축소하는 기법이지만, 중요한 차이는 LDA는 지도학습의 분류에서 사용하기 쉽도록 개별 클래스를 분별할 수 있는 기준을 최대한 유지하면서 결정 값 클래스를 최대한으로 분리 할 수 있는 축을 찾는다. LDA는 특정 공간상에서 클래스 분리를 최대화 하는 축을 찾기 위해 클래스 간 분산과 클래스 내부 분산의 비율을 최대화 하는 방식으로 차원을 축소한다. 즉 , 클래스 간 분산은 최대한 크게 가져가고, 클래스 내부의 분산은 최대한 작게 가져가는 방식이다. 다음 그림은 좋은 클래스 분리를 위해 클래스 간 분산이 크고 ..

차원축소 / PCA(주성분 분석)

2020.08.22·

머신러닝

차원 축소 차원 축소는 많은 피처로 구성된 다차원 데이터 셋의 차원을 축소해 새로운 차원의 데이터 셋을 생성하는 것이다. 일반적으로 차원이 증가할수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 되고, 희소(sparse)한 구조를 가지게 된다. 수백 개 이상의 피처로 구성된 데이터 셋읭 경우 상대적으로 적은 차원에서 학습된 모델보다 에측 신뢰도가 떨어진다. 또한 피처가 많은 경우 개별 피처 간의 상관관계가 높을 가능성이 크다. 선형 회귀와 같은 선형 모델에서는 입력 변수 간의 상관관계가 높을 경우 이로 인한 다중 공선성 문제로 모델의 예측 성능이 떨어진다. 다중공선성 : 일부 변수가 다른 변수와 상관도가 높아, 데이터 분석 시 부정적인 영향을 미치는 현상 수십개 이상의 피처가 있는 데이터의 경우 이..

코딩야학 - 아이리스 품종 분류

2020.08.22·

데이터 분석/코딩야학

아이리스 데이터를 살펴보면 꽃잎과 꽃받침의 데이터를 가지고 품종을 예측하는 것이다. 이전에 예측했던 예제의 종속변수는 양적 데이터 였지만 아이리스 데이터의 종속 변수는 범주형 데이터 타입이다. 앞의 회귀와 어떤 차이가 있는지 코드로 살펴 보자. #1.과거의 데이터를 준비합니다. 부분에서는 회귀에서 못보던 get_dummies 코드가 추가된 것을 알 수있다. #2. 모델의 구조를 만듭니다. 부분에서는 종속변수의 갯수가 3개이고 activation 부분과 loss 부분이 달라진것을 알 수 있습니다 . 코드에 대해 알아 보기 전에 원-핫 인코딩에 대해 알아 봅시다. 원핫인코딩 범주형 자료는 수식으로 표현 할 수 없기 때문에 딥러닝 모델을 사용할 수없다. 원핫인코딩은 범주형 데이터를 1과 0의 데이터 바꿔주는 ..

티스토리툴바