목록머신러닝 & 딥러닝/논문 리뷰 (1)
홍우진의 개발 일기장
[논문리뷰] Attention Is All You Need / Transformer 쉬운 요약
서론위 자료는 Transformer의 아키텍쳐다.매우 복잡해 보이는데 복잡한 거 맞다.이해하기 쉽도록 풀어주겠다. 이 글은 간단 이해를 목적으로 제작된 문서이기 때문에 "아 이런거구나~" 개념 정도로만 정리하였다.자세한 내용을 원하신다면 다른 자료를 찾아보길...(틀린 정보가 있다면 댓글로 알려주시면 감사하겠습니다!) Attention Is All You Need 등장 배경 기존 Encoder – Decoder 모델은 순차적으로 계산하기 때문에 속도가 매우 느리다. 또한 긴 sequence 데이터를 처리해야 할 때제한된 크기의 Context vector로 모든 정보를 담아내야 하기 때문에 정보의 손실이 커지고이에 따라 성능의 병목현상이 일어난다.그러므로 번역 결과가 엉터리가 되는 경우가 많다. 그 이..
머신러닝 & 딥러닝/논문 리뷰
2024. 12. 30. 22:46