오랜만에 굉장히 설레는 논문 포스팅인 것 같다. 이 논문 이전에는 아무래도 미국 빅테크들의 LLM들만 주목받았었다면, DeepSeek가 R1을 공개하고 나서는 중국의 LLM 연구가 우수하다는 것을 전 세계에 알린 기점이 되었다고 생각한다. 실제로 엔비디아와 같은 주식이 폭락하기도 했고, 나 역시도 이 소식을 듣고 "진짜 중국이 이 정도로...?" 하면서 출시 당시 논문을 슬쩍 보기도 했었다. 실제로 순수 RL을 이용한 LLM incentivization은, 당시 RLHF가 최신 트렌드였던 업계에서 breakthrough가 되었다고 생각할 뿐만 아니라 강화학습의 활용성에 대해서도 다시 생각해보게 된 계기가 되었던 것 같다. 다들 참 대단하다. 나도 저런 연구자가 되고 싶다..ㅠ Main Contrib..
오늘은 RAG 기술에 대해서 다뤄보도록 하겠다. 모두들 기억하고 있겠지만, 정말 얼마 안된, 몇 년 전까지만 해도 LLM은 가장 큰 문제인 Hallucination에 직면하고 있었다. 사실 지금도 RAG와 같은 최신 기술(?)들을 follow-up 하지 않는, 비-테크 회사에서는 종종 LLM 관련하여 hallucination이 생길 경우 자료 정리를 어떻게 할 것인지 이런 질문들을 하기도 한다고 들었던 것 같다. 이제 그런 걱정은 없고, 학계에서도 Hallucination 관련한 내용을 거의 언급하지 않는 듯하다. 이는 모두 Facebook AI Research (FAIR) 에서 발표한 RAG(Retrieval-Augmented Generation) 논문 덕분이다. RAG의 직관적 이해 기존의 언어 ..
오늘은 현재 "Large" language model의 핵심 이론적 토대가 된, LLM의 Scaling Law에 대해서 간단히 짚고 넘어가보려고 한다. 이전까지는 LLM이라기보다는 LM 수준이었고, 이 Scaling law 원칙을 바탕으로 GPT-3등 본격적인 거대 언어 모델의 시대로 넘어간다고 해도 과언이 아닐 것이다. N, D, C and Power Laws 위의 차트는 LM task에서 performance를 결정짓는 변수들에 대한 것이며, 각 변수를 증가시킬 때마다 test loss가 어떻게 반응하는 지를 보여주는 그래프이다. 파라미터 수 (N): 성능은 비임베딩 파라미터(non-embedding parameters) 수에 가장 깨끗하게 반응한다.데이터셋 크기 (D): 충분한 모델 크기가 ..