[DL] Attention
·
ML&DL
1. Seq2Seq Model Seq2Seq  Model은 쉽게 말해서 일련의 Encoder 가 입력 시퀀스를 처리하여 Latent vector로 정보를 압축하고, 이를 Decoder로 전달하여 출력 시퀀스를 생성하는모델이다. Latent Vector : Encoder 의 마지막 step 에서 생성된 Hidden state로 , 입력 시퀀스의 정보를 요약한 vector 이다.주요 활용 사례 : 번역, 요약, Q&A  2. 문제점 : Bottleneck 현상 발생 latent vector에 입력 시퀀스의 모든 정보를 압축해야하므로, 정보 손실 가능성 존재 ( latent Vector는 입력 시퀀스의 의미를 잘 담아야 한다. )해결방안 : Attention Mechanism  : Decoder가 Latent..
LLM Knowledge Update
·
ML&DL
들어가며LLM은 고정된 데이터에 대해서 학습된 사전학습 모델이다. 따라서 최신 지식 혹은 시간에 따라 변화하는 지식을 잘 답변하지 못할 확률이 높다. 그렇다면 매번 새로운 데이터를 학습 시키면 되지 않을까? 하는 생각을 할 수 있는데 이 경우에는 Catastrophic forgetting 문제가 발생한다.👀 Catastrophic Forgetting이란?: 인공신경망이 새로운 정보를 학습할 때 이전에 학습한 정보를 잊어버리는 현상이다.그림으로 이해를 해보자. MNIST 데이터로 학습한 모델 A가 있다고 가정했을 때, 이 모델에서 SVHN 데이터로 새로 학습을 시킨다. 이후 다시 MNIST 데이터로 분류 TASK를 진행할 경우, 새로운 데이터(SVNH)로 학습하기 이전의 분류 성능이 안나온다는 것이다.그..
[DL] Transformer : Self-Attention
·
ML&DL
1. Self Attention Self Attention이란 말 그래도 자기 자신에게 수행하는 Attention 기법이다. 그렇다면 왜 이런 행위를 하는 것일까? 그 이유는 바로 문장에서 단어들의 연관성을 알기 위해서다.   위 그림을 참고하여, 만일 "The animal didn't cross the street because it was too tired"라는 문장이 있다고 하자. 여기서 'it'이 가리키는 단어는 문맥상 'animal' 임을 알 수 있고, 이 둘의 단어는 관련이 높다고 할 수 있다.  이러한 과정을 컴퓨터가 할 수 있도록 하는 것이다.  즉 , self attention은 자기자신이 Query이자 Key, Value이며 입력으로 들어온 Sequence 내에서 단어들 간의 관계를 계..
[DL] Dropout
·
ML&DL
1. Dropout(드롭아웃) 이란?Foward Propagation에서 일정확률(0부터 1사의 확률)로 선택된 일부 Node 혹은 Neuron 들의 결과값을 0으로 설정하는 방식이다 . 즉, 선택된 일부 Node 혹은 Neuron을 제거하는 기법이다.  제거되는 뉴런의 종류와 개수는 오로지 random하게 결정된다. Dropout Rate는 하이퍼파라미터이며 일반적으로 0.5로 설정한다. 🤔 그렇다면 Dropout을 사용하는 이유가 무엇일까요? Dropout은 어떤 특정한 feature만을 과도하게 학습함으로써 발생할 수 있는 Overfitting을 방지할 수 있다. 즉, 일반화의 성능을 올릴 수 있는 것이다.  만일 특정한 피처(관련성이 높은 피처)가 예측결과값과 큰 상관관계가 있다고 가정해보자. ..