'ML&DL' 카테고리의 글 목록

1. Seq2Seq Model Seq2Seq Model은 쉽게 말해서 일련의 Encoder 가 입력 시퀀스를 처리하여 Latent vector로 정보를 압축하고, 이를 Decoder로 전달하여 출력 시퀀스를 생성하는모델이다. Latent Vector : Encoder 의 마지막 step 에서 생성된 Hidden state로 , 입력 시퀀스의 정보를 요약한 vector 이다.주요 활용 사례 : 번역, 요약, Q&A 2. 문제점 : Bottleneck 현상 발생 latent vector에 입력 시퀀스의 모든 정보를 압축해야하므로, 정보 손실 가능성 존재 ( latent Vector는 입력 시퀀스의 의미를 잘 담아야 한다. )해결방안 : Attention Mechanism : Decoder가 Latent..

들어가며LLM은 고정된 데이터에 대해서 학습된 사전학습 모델이다. 따라서 최신 지식 혹은 시간에 따라 변화하는 지식을 잘 답변하지 못할 확률이 높다. 그렇다면 매번 새로운 데이터를 학습 시키면 되지 않을까? 하는 생각을 할 수 있는데 이 경우에는 Catastrophic forgetting 문제가 발생한다.👀 Catastrophic Forgetting이란?: 인공신경망이 새로운 정보를 학습할 때 이전에 학습한 정보를 잊어버리는 현상이다.그림으로 이해를 해보자. MNIST 데이터로 학습한 모델 A가 있다고 가정했을 때, 이 모델에서 SVHN 데이터로 새로 학습을 시킨다. 이후 다시 MNIST 데이터로 분류 TASK를 진행할 경우, 새로운 데이터(SVNH)로 학습하기 이전의 분류 성능이 안나온다는 것이다.그..

1. Self Attention Self Attention이란 말 그래도 자기 자신에게 수행하는 Attention 기법이다. 그렇다면 왜 이런 행위를 하는 것일까? 그 이유는 바로 문장에서 단어들의 연관성을 알기 위해서다. 위 그림을 참고하여, 만일 "The animal didn't cross the street because it was too tired"라는 문장이 있다고 하자. 여기서 'it'이 가리키는 단어는 문맥상 'animal' 임을 알 수 있고, 이 둘의 단어는 관련이 높다고 할 수 있다. 이러한 과정을 컴퓨터가 할 수 있도록 하는 것이다. 즉 , self attention은 자기자신이 Query이자 Key, Value이며 입력으로 들어온 Sequence 내에서 단어들 간의 관계를 계..

1. Dropout(드롭아웃) 이란?Foward Propagation에서 일정확률(0부터 1사의 확률)로 선택된 일부 Node 혹은 Neuron 들의 결과값을 0으로 설정하는 방식이다 . 즉, 선택된 일부 Node 혹은 Neuron을 제거하는 기법이다. 제거되는 뉴런의 종류와 개수는 오로지 random하게 결정된다. Dropout Rate는 하이퍼파라미터이며 일반적으로 0.5로 설정한다. 🤔 그렇다면 Dropout을 사용하는 이유가 무엇일까요? Dropout은 어떤 특정한 feature만을 과도하게 학습함으로써 발생할 수 있는 Overfitting을 방지할 수 있다. 즉, 일반화의 성능을 올릴 수 있는 것이다. 만일 특정한 피처(관련성이 높은 피처)가 예측결과값과 큰 상관관계가 있다고 가정해보자. ..

티스토리툴바