LLM 관련 base knowledge recap의 의미로, 이 게시물을 작성한다. 다음의 글을 참조하면 좋을 것이다.https://www.krupadave.com/articles/everything-about-transformers?x=v3 Everything About TransformersA visual, intuitive deep dive into transformer architecture: history, design choices, and the why behind attention, masking, and positional encoding.www.krupadave.com History of Transformer 처음에 개발된 feed forward network는 no memory, n..
PINN에 이어서 DeepONet에 대해 다뤄보도록 하겠다. DeepONet은 데이터로부터 함수와 함수 간의 매핑인 '연산자(Operator)'를 직접 학습하여 물리적 시스템의 해를 근사하는 신경망 모델이다.입력 함수의 정보를 담는 브랜치(Branch) 네트워크와 출력 위치 정보를 처리하는 트렁크(Trunk) 네트워크의 내적(Inner product) 구조를 통해 non-linear 관계를 효율적으로 표현한다.PINN이 solution을 찾는 것과 달리, DeepONet은 해를 구하는 알고리즘 자체를 학습하기 때문에 다양한 초기 조건이나 경계 조건에 대해 generalization이 가능하다. https://arxiv.org/abs/1910.03193 DeepONet: Learning nonlinear ..
오늘은 physics informed network의 대표작인 PINN에 대해서 간단히 다뤄보려고 한다. PINN(Physics-Informed Neural Networks)은 물리 법칙을 딥러닝 모델의 학습 과정에 직접 통합하여, 데이터의 패턴뿐만 아니라 실제 물리적 원리를 함께 학습하는 프레임워크라고 할 수 있다. 주로 편미분 방정식(PDE)을 신경망의 손실 함수(Loss Function)에 포함시키는 방식을 사용하며, 이를 통해 모델이 물리적으로 타당한 해를 도출하도록 강제하는 방식이다.이 방식은 학습 데이터가 부족한 상황에서도 높은 예측 정확도를 유지할 수 있게 해주며, 공학적 시뮬레이션이나 복잡한 물리 현상(주로 데이터를 시뮬레이션 하는데 많은 resource가 들어간다)에 사용된다. https..
오랜만에 굉장히 설레는 논문 포스팅인 것 같다. 이 논문 이전에는 아무래도 미국 빅테크들의 LLM들만 주목받았었다면, DeepSeek가 R1을 공개하고 나서는 중국의 LLM 연구가 우수하다는 것을 전 세계에 알린 기점이 되었다고 생각한다. 실제로 엔비디아와 같은 주식이 폭락하기도 했고, 나 역시도 이 소식을 듣고 "진짜 중국이 이 정도로...?" 하면서 출시 당시 논문을 슬쩍 보기도 했었다. 실제로 순수 RL을 이용한 LLM incentivization은, 당시 RLHF가 최신 트렌드였던 업계에서 breakthrough가 되었다고 생각할 뿐만 아니라 강화학습의 활용성에 대해서도 다시 생각해보게 된 계기가 되었던 것 같다. 다들 참 대단하다. 나도 저런 연구자가 되고 싶다..ㅠ Main Contrib..
오늘은 RAG 기술에 대해서 다뤄보도록 하겠다. 모두들 기억하고 있겠지만, 정말 얼마 안된, 몇 년 전까지만 해도 LLM은 가장 큰 문제인 Hallucination에 직면하고 있었다. 사실 지금도 RAG와 같은 최신 기술(?)들을 follow-up 하지 않는, 비-테크 회사에서는 종종 LLM 관련하여 hallucination이 생길 경우 자료 정리를 어떻게 할 것인지 이런 질문들을 하기도 한다고 들었던 것 같다. 이제 그런 걱정은 없고, 학계에서도 Hallucination 관련한 내용을 거의 언급하지 않는 듯하다. 이는 모두 Facebook AI Research (FAIR) 에서 발표한 RAG(Retrieval-Augmented Generation) 논문 덕분이다. RAG의 직관적 이해 기존의 언어 ..
오늘은 현재 "Large" language model의 핵심 이론적 토대가 된, LLM의 Scaling Law에 대해서 간단히 짚고 넘어가보려고 한다. 이전까지는 LLM이라기보다는 LM 수준이었고, 이 Scaling law 원칙을 바탕으로 GPT-3등 본격적인 거대 언어 모델의 시대로 넘어간다고 해도 과언이 아닐 것이다. N, D, C and Power Laws 위의 차트는 LM task에서 performance를 결정짓는 변수들에 대한 것이며, 각 변수를 증가시킬 때마다 test loss가 어떻게 반응하는 지를 보여주는 그래프이다. 파라미터 수 (N): 성능은 비임베딩 파라미터(non-embedding parameters) 수에 가장 깨끗하게 반응한다.데이터셋 크기 (D): 충분한 모델 크기가 ..
오늘은 CNN에서 Multi-branch와 skip connection의 장점은 살리면서도 training time과 inference time에서의 모델 구조를 분리하여 연산량을 줄여 빠르고 단순한 구조로 바꾼 RepVGG에 대해서 알아보도록 하자. 이전에 발표를 한 경험이 있기에, 발표자료를 수록하도록 하겠다. Background 1. VGG-style ConvNet이 주는 장점 VGG 계열은 단순하고(Sequential), 깊고(Deep), 균일한(Uniform) 설계가 직관적이라, 구현/최적화/배포 측면에서 매력적이다.다만 성능 경쟁이 치열해지면서 Inception/ResNet처럼 분기(branch)가 있는 구조가 표준이 되었고, plain(VGG-style) 네트워크는 상대적으로 불리해지는 환..
지난 번에 우리는 policy gradient theorem을 통해 총 return에 대한 gradient, 즉 이 부분에 대한 gradient를, 다음과 같이 표현할 수 있다는 것을 알았다. 이제부터 모든 policy gradient 알고리즘들은 이 형태의 식에서 시작한다. 오늘은 Actor-Critic 방법들에 대해서 알아볼 예정이다. Actor-Critic 우리가 가지고 있는 문제는, 저 위의 true Q value를 모른다는 것이다. 이걸 approximation 할 수 있는 "Critic" network를 하나 만드는 것이 우리의 목표이다. 저 앞부분이 이제부터 조금씩 바뀔 건데, 저 앞부분은 약간 업데이트 기준이 되는 값이라고 생각하면 된다. 결국 Actor-Critic 방법은 저 앞부분을..
지금까지 우리는 "Value-based" RL을 보았다. Q-function을 approximation해서 가치를 추정한 다음에, 이를 바탕으로 policy를 구하는 과정이었다. 그래서 항상 흐름도 V(s)를 구하거나, Q(s,a)를 구한 뒤, epsilon-greedy 이런 식으로 policy에 대해서 다루었다. 근데 여기서 의문이 생기는 것은, 그냥 policy를 또 parameterized function으로 직접 구해버리면 안되나? 이런 내용일 것이다. 이러한 의문점에서 파생된 것이 바로 "Policy-based" RL이며, 지금부터 볼 policy gradient를 기반으로 한 알고리즘들이 바로 그것들이다. (당연히 gradient가 들어간다, parameterized function은 또 딱..
Part5에서는 Q-learning에 대해서 마지막으로 보았다. 이걸 다시 잠깐 recap 해보면, 타겟을 구성할 때 가장 큰 값을 가지는 (max) 다음 action을 현재 policy에 관계없이 따르는 것이었다. 그런데 당연히, 하나 의문점이 들 만하다. 아니 가능한 다음 action이 많을텐데, 그러면 수많은 Q값들이 있을텐데, 그게 뭔지 알고? 그걸 다 계산해보고 거기서 가장 max를 취하는건가? 라는 의문이다. Tabular Q-learning은 Q값들의 table로 관리하면서 업데이트 하는 방식이다. 문제는 이게 state와 action space가 커질수록 당연히 table로 관리하기가 힘들어진다. 그래서 드디어 Deep Neural Net이 나오는데, 이 Q값을 어떤 parameteri..