목록AI (30)
CS log
0. Abstractunlabel된 text는 아주 많지만, labeled data for learning specific tasks is scarce이런 unlabeled된 데이터를 버리지 않고generative pre-training of a language model on a diverse corpus of unlabeled text 와 그와 더불어discriminative fin-tuning on each specific task 를 사용해 성과를 냈다.task-aware input transformations 의 pretraining -> fine-tuning 하는 과정에서 model architecture는 최소한으로 변경했다. 특히 general task-agnostic model에서 특정 ..
Abstractproblem기존 dnn의 한계점 : mapping sequences to sequences 하는 데에 사용할 수 없다. solutiongeneral end-to-end approach to sequence learning1. multilayered Long Short - Term Memory : 입력 문장을 고정된 차원의 벡터로 매핑2. deep LSTM : 벡터를 타켓 문장으로 decode resultTranslation task (WMT-14 dataset)에서 34.8 BLUE score를 기록하였다. 이와 반대로, phrase-base SMT system에서는 33.3으로 보다 낮은 score를 보였다.lstm은 긴 문장에 대해 어려움 X 능동태 수동태에 변함 X 순서에 민감입력 ..
https://cookie-chive-970.notion.site/Transformer-basic-paper-fd130fa0f7ad4e2fbb4572a98d798508?pvs=4 Transformer basic paper | Notionreferencecookie-chive-970.notion.site
ANNAritificial Neural Network, 인공신경망사람 신경망 원리와 구조에 착안한 기계학습 알고리즘으로, 딥러닝의 기초가 됨 Perceptron인공신경망의 기본 요소이며, 신경 세포 하나를 의미함학습 방법 : 가중치 초기화 ➡️ 입력값과 가중치로 예측값 계산 ➡️ 예측값과 실제값 차이 계산 ➡️ 차이를 줄이도록 가중치 변경 ➡️ 반복 1) 단층 퍼셉트론 (single-layer perceptron)입력층과 출력층으로만 구성됨(은닉층x)한계 : XOR 게이트 구현 불가능 2) 다층 퍼셉트론(multi-layered perceptron MLP)은닉층 존재은닉층이 2개 이상인 신경망 -> 심층 신경망 (Deep Neural Network, DNN) * 같은 층의 노드 수를 늘리면 어떤 효과인..