A future that integrates LLMs and LAMs (Symposium)

LLM과 LAM을
통합한 미래:
차세대 인공지능 솔루션을 위한 심포지엄
이태영 / 서울과기대 Ph.D Candidate
서강대 인공지능 석사 졸업
모두의 연구소 Faculty
Keras Korea 운영진

https://blog.google/intl/ko-kr/products/android-play-hardware/google-ai-samsung-galaxy-s24/

Siri + AI StartUp 기업 인수(DarwinAI)
https://www.yna.co.kr/view/AKR20240315014300091

Apple 에 Gemini 탑재
https://www.aitimes.com/news/userArticlePhoto.html

https://www.techtube.co.kr/news/articleView.html?idxno=4557

https://arxiv.org/abs/2404.14619

라마3(Llama 3)에서 새로운점
라마3는 라마2 대비 여러가지 개선점이 있습니다:
● 토크나이저 개선: 128K 토큰의 vocabulary로 언어를 더 효율적으로 인코딩해 성능 향상
● 추론 효율성 개선: 8B, 70B 모델 모두 Grouped Query Attention(GQA) 적용
● 대규모 사전학습 확장: 15조 토큰 이상으로 학습, 라마2 대비 7배 이상 데이터셋 증가
● Instruction-tuning 혁신: SFT, Rejection Sampling, PPO, DPO 기법 활용한 정교한 모델 얼라인먼트

CONTENTS
01. GPT 등장 배경
02. ChatGPT와 검색 아키텍처와의 비교
03. Prompt Engineering
04. LLMs Model의 강화
06. Ranking Model의 고도화
05. LLM OPS 관점
07. LAM과의 결합

01.
GPT의 등장 배경
SOGANG
UNIVERSITY

02.
ChatGPT 검색과의 아키텍처 비교
SOGANG
UNIVERSITY

검색 또는 추천 시스템과의 유사성을 알아보자!
RLHF와 LoRA는 결국 Ranking Model의 변형이다.
세부 아키텍처 구성
Query
Indexer
Data
수집기 LLM
RLHF
(LoRA)
Prompt
Ranking
Model
출처 : https://blog.bytebytego.com/p/ep-44-how-does-chatgpt-work

03.
Prompt Engineering
SOGANG
UNIVERSITY

출현 배경
InstructGPT
Zero Shot Prompt
One Shot Prompt
Few Shot Prompt
Chain of Thought Prompt
출처 : https://velog.io/@mmodestaa/InstructGPT-ChatGPT

Instruction Tuning
Instruction Tuning
● Instruction을 통해 설명된 데이터 세트 모음에서 언어 모델을 미세
조정
● Unseen task에서 Zero Shot 성능 개선
● Instruction Tuning는 Instruction으로 표현된 mixture data로 사전
학습된 언어 모델을 튜닝하며, 추론 시에는 unseen 작업 유형을
평가
● 3가지 unseen 작업 유형에 대해, zero-shot, few-shot GPT-3과
비교하여 zero-shot FLAN(Finetuned LAnguage Net)의 성능을 평가
● 작은 LLM에서도 좋은 성능
LMs
Task B, C, D의
instructions/templates로
LM학습
Task A에 대해 추론
출처 : Wei, Jason, et al. "Finetuned language models are zero-shot learners." arXiv preprint arXiv:2109.01652 (2021)

사용성 강화 측면
Prompt Engineering
출처 : https://cobusgreyling.medium.com/eight-prompt-engineering-implementations-updated-90c82d071350

Elements of a Prompt
Instruction
모델 수행 방법에 대한 task 설명 또는 지침
Context
모델 성능을 조정하기 위한 추가 또는 외부 정보
Input Data
모델이 출력을 제공해야 하는 입력/질문
Output Indicator
모델에 출력을 제공하는 데 필요한 지표 형식
Prompt의 구성 요소
출처 : https://www.promptingguide.ai/kr/introduction/elements

04.
LLMs Model의 강화
SOGANG
UNIVERSITY

출처 : https://github.com/michaelthwan/llm_family_chart

적절한 목적별 전략 필요
프롬프트 엔지니어링 검색증강생성(RAG) 파인튜닝(Fine-tuning) 사전훈련/재훈련
목적
LLM의 유용한 응답을
생성하기 위한 지침/질문/맥락
생성
환각없는 정확한 응답 생성
응답 품질 및 도메인 관련 결과
개선
모델 공급
(public/proprietary)
훈련기간 N/A N/A 몇분 ~ 몇 시간
모델 및 인프라에 따라
며칠에서 몇 달까지
소요
훈련비용 없음 없음 중간 높음
커스터마이징
프롬프트 커스터마이징(One
shot, Few shot)
기업 내부 데이터를 이용하여
프롬프트 “맥락＂을 위한
지식유 구축 및 검색
모델 일부
특정 작업 튜닝(instruction tuning)
도메인별 훈련 데이터 추가
(Domain Adaptation)
모델 전체
신경망 아키텍쳐 및
크기
어휘 크기 및 컨텍스트
길이
요구되는 ML 전문성 낮음 낮음-중간 중간 높음
상황별 적절한 Generative AI 활용
자체 LLM 모델을 구축하는데는 많은 자원이 소요되는 바, 자체 지식베이스(Knowledge base)를 구축하고
이를 기반으로 프롬프트 엔지니어링/검색증강생성(RAG)/파인튜닝을 통하여 Domain 지식을 활용할 수 있는
비즈니스 전략의 추진이 필요.

LLM의 재학습
LLM의 고도화
PEFT (Parameter-Efficient Fine Tuning)
PEFT는 사전학습된 LLM의 대부분의 파라미터를 프리징하고 일부의 파라미터만을
파인튜닝함으로써 저장공간과 계산능력을 대폭 줄였습니다. 파인튜닝할때 발생하는 문제점중
하나인 catastrophic forgetting또한 극복했습니다. PEFT는 또한 *적은 데이터 체제
(low-data-regime)에서 파인튜닝할때나 도메인 밖의 데이터(out-of-domain scenario)를
일반화할때 더욱 좋은 성능을 보여주었습니다. (예를 들면 이미지 분류, stable diffusion의
dreambooth)
1. LoRA: LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
2. Prefix Tuning: P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
3. Prompt Tuning: The Power of Scale for Parameter-Efficient Prompt Tuning
4. P-Tuning: GPT Understands, Too
PEFT 방법론
출처 : https://4n3mone.tistory.com/7

Adapters
PEFT Techniques
어댑터 튜닝 : 트랜스포머 레이어 사이에 병목 레이어(=어댑터)를 추가하고 훈련함
출처 : https://magazine.sebastianraschka.com/p/understanding-parameter-efficient

LoRA
PEFT Techniques
● 기존 모델 가중치는 고정시키고 추가로 더해주는 정도를 학습함
● 가중치 전체 대신 표현의 일부만 학습 (저차원 행렬)
● 범용성 높아 아미지 도메인에도 적용 가능
출처 : https://sebastianraschka.com/blog/2023/llm-finetuning-lora.html

QLoRA
PEFT Techniques
● LoRA 가중치에 4비트 양자화 (경량화) 적용
● 가중치를 4비트 NormalFloat 자료형으로 저장하되 모델 학습에서 필요한 경우 bfloat16으로 복원시켜서 사용
● 16비트 전체 파인튜닝과 성능 거의 동일하되, 필요한 GPU 메모리 크기 현저히 감소
출처 : https://huggingface.co/blog/hf-bitsandbytes-integration

Types of PEFT Techniques and Their Performance
PEFT Techniques
출처 : https://magazine.sebastianraschka.com/p/finetuning-large-language-models

05.
LLMs OPS 관점
SOGANG
UNIVERSITY

LLM EcoSystem
RAG
(Retrieval Augmented Generation)
Redis
GPTCache
LLM Response Caching
Weight & Bias
MLflow
PromptLayer
LLM 출력 모니터링, 추적, 평가
Helicone
Guradrails
출력의 유해성 검증
Rebuff
프롬프트 주입 공격 방어
Embedding Model Vector Database
Databricks
Apache
Airflow
LangChain
LlamaIndex
ETL
Document Loader
ANN
(Approximate Nearest Neighbor)
PQ
(Product Quantization)
LSH
(Locality Sensitive Hashing)
HNSW
(Hierarchical Navigable Small World)
빠른 검색을 위해 벡터를 인덱싱 하는 방법
벡터를 빠르게 찾는 방법
질의에 대한 임베딩 처리 검색 요청 검색 결과 프롬프트 엔지니어링
오케스트레이션 프레임워크 (Langchain, LlamaIndex(GPT Index))
Causal AI
Vespa
Pinecone Weaviate
Qdrant
LLM
참고문헌 : https://a16z.com/2023/06/20/emerging-architectures-for-llm-applications/

LLM 적용 Architecture
실제 도메인에서 적용을 위해선 많은 것들에 대한 고려 필요
1. 텍스트 데이터를 청크로 분할하여 각 청크를
맥락 조각으로 나타냄.
2. 임베딩 모델을 사용하여 각 청크를 벡터
임베딩으로 변환함.
3. 모든 벡터 임베딩을 데이터베이스에 저장하고,
관련 정보와 함께 보관.
4. 질문을 임베딩하고, 벡터 데이터베이스에서
가장 유사한 벡터를 검색해 맥락 벡터를
가져옴.
5. 검색된 맥락을 활용하여 LLM 모델에 질문을
전달하고 답변 생성 시 해당 맥락만 활용.
출처 : https://www.linkedin.com/in/aurimas-griciunas/

Retrieval (검색)
Retrieval Augmented Generation(RAG) 기반 Architecture
수시로 업데이트 되는 문서에서 정확한 정보를 찾기 위해서는 ‘Retrieval (검색)’ 기반의 생성이 필수
출처 : https://wandb.ai/ayush-thakur/llama-index-report/reports/Building-Advanced-Query-Engine-and-Evaluation-with-LlamaIndex-and-W-B--Vmlldzo0OTIzMjMy

다양한 주변 정보의 데이터별 고도화 방법론

https://arxiv.org/pdf/2312.10997.pdf

https://notes.aimodels.fyi/memgpt-towards-llm-as-operating-system/
장기 기억
단기 기억

Q & A
https://towardsdatascience.com/12-rag-pain-points-and-proposed-solutions-43709939a28c

Multi Modal
https://arxiv.org/pdf/2402.15116.pdf

06.
Ranking Model의 고도화
SOGANG
UNIVERSITY

https://velog.io/@nellcome/RLHF란?
RM
PPO

PPO (Proximal Policy Optimization)

DPO (Direct Preference Optimization)

07.
LAM과의 결합
SOGANG
UNIVERSITY

https://www.sedaily.com/NewsView/2D6P4APVEC

Rabbit AI: Large Action Models (LAMs)
Large Action Models (LAMs)은 인간의 의도를 이해하고 행동을 예측할 수 있는 고급
인공지능 시스템입니다.
Large Action Models의 기초, 작동 원리 및 구조에 대해 다룰 예정입니다.
우리는 Generative AI 및 LLMs에 대해 들어보았고, 사용해보았으며, 대화 봇, 이미지
생성, 고객 서비스와 같은 작업에서 그들의 엄청난 영향력을 목격했습니다. 이들은
요청된 쿼리에 대한 훌륭한 정보를 제공합니다. 주로 자연어 처리 기술을 사용하여
다음에 있어야 할 단어를 예측하는 방식으로 작동합니다. 여러분은 ChatGPT,
MidJourney, Bard와 같은 가장 일반적인 Generative AI 및 Large Language Models의
예를 사용해보았을 것입니다. 이러한 도구들은 컨텐츠 생성, 웹사이트 디자인,
텍스트-이미지/비디오 생성과 같은 다양한 작업에서 혁신을 촉진하고 있으며, 이
목록은 계속해서 성장하고 있습니다.
그러나 이러한 LLM 모델이 부족한 한 가지 영역이 있으며, 그것은 사용자가 주어진
명령에 따라 "행동"을 취하는 것입니다. 이 모델들은 작업을 수행하는 데 필요한
상세한 단계를 제공할 수 있지만, 사용자를 대신해 작업을 수행할 수는 없습니다.
이 최첨단 기술과 그 응용 분야의 기초를 다루는 것입니다.
https://www.geeksforgeeks.org/rabbit-ai-large-action-models-lams/

Action Model Learning은 인공지능에서 사용되는 귀납적 추론의 한
형태입니다. 여기서 AI 모델은 에이전트의 관찰을 통해 새로운 것들을
배웁니다. 이러한 유형의 학습에서 모델은 다른 모델이 동일한 작업을
수행하는 것을 관찰함으로써 작업을 수행하는 방법을 배웁니다. 이것은 강화
학습과 비슷하게 들릴 수 있지만, 모델이 보상과 처벌 메커니즘을 사용하여
훈련되는 강화 학습과는 다릅니다. 모델이 올바른 출력을 예측하면 보상을
받고 잘못된 출력을 예측하면 처벌을 받습니다. 대신, Action Model
Learning은 실제 세계에서 시행착오를 수행하는 대신 행동에 대해 추론을
사용합니다. 올바른 입력/출력 쌍은 Action Model Learning에서 결코
제시되지 않으며, 부정확한 행동 모델도 명시적으로 수정되지 않습니다.
Action Model Learning은 다양한 이점을 가지고 있습니다. 이는 AI 에이전트가
다른 사람들이 작업을 수행하는 방법을 관찰함으로써 작업을 더 효율적으로
수행하는 방법을 배우는 데 도움을 줄 수 있습니다. 또한, 에이전트가 새로운
시나리오에 대한 지식을 활용하고 행동을 계획하고 실행하는 능력을
개선하는 데 도움이 될 수 있습니다.
Action Model Learning

신경 기호 프로그래밍은 신경망과 기호 AI를 결합한
인공지능의 한 종류로, 기존의 인간 지식을 명시적으로
포착하여 두 모델의 한계/약점을 해결하고 강점을
결합합니다.
이 방식을 통해 우리는 추론, 학습, 그리고 인지 모델링을
수행할 수 있는 AI를 만들 수 있습니다.
이 두 기술을 결합하여 만든 모델은 모듈식이며 해석
가능하고 기호 분석에 적합하며 기호 형태로 표현된 풍부한
귀납적 편향을 자연스럽게 통합할 수 있습니다. 이는
자연어 이해, 로보틱스, 과학적 발견 등 다양한 분야에서
사용됩니다.
Neuro-Symbolic Programming

Large Action Models(LAMs)은 인공지능 세계의 최신 발전입니다. LAMs는
작업을 수행하기 위해 에이전트를 사용합니다. 이 에이전트들은 단순히 인간의
질문에 응답하는 것을 넘어서 특정 목표의 달성에 적극적으로 기여할 수 있는
독립적인 작업 실행이 가능한 소프트웨어 엔티티입니다. LAMs는 LLM의
언어적 능력과 자율적으로 작업을 수행하고 결정을 내릴 수 있는 능력을
통합하여 중요한 전환점을 표시합니다.
Large Action Models의 구조는 의도된 응용 프로그램과 그들이 복제하고자 하는
인간 행동의 시뮬레이션을 기반으로 구성됩니다. 단순한 텍스트 표현과 달리,
LAMs는 임시 시연 없이도 다양한 응용 프로그램의 구성과 그에 따른 인간
행동을 효과적으로 시뮬레이션할 수 있습니다. 이 능력은 신경 기호
프로그래밍과 패턴 인식의 발전에 의해 용이해집니다.
AI 모델은 온라인으로 음식을 주문하는 방법에 대한 자세한 과정을 제공할 수
있지만, 대신 주문을 할 수는 없습니다. Alexa, Siri, Cortana와 같은 기존 대화형
모델을 탑재한 우리의 스마트폰조차 모든 종류의 작업을 수행할 수는 없습니다.
또한 특정 작업을 수행하도록 훈련될 수 있는 AI 에이전트라는 것이 있지만,
이들은 더 실행 가능하지 않을 수 있습니다. 그리고 이러한 것들은 Large Action
Models(LAMs)이 활약하는 완전히 새로운 가능성의 영역을 열어줍니다.
LAMs는 일반 LLM보다 대략 10배 빠른 속도로 작동하는 LLM의 매우 고급
버전입니다. 이들은 다양한 분야에서 복잡하고 정교한 작업을 처리하도록
설계된 고급 계산 모델입니다.
Large Action Models(LAMs)

다음과 같은 간단한 작업부터:
- 택시 주문하기
- 음식 주문하기
- 이메일 보내기
- 회의 일정 잡기 등
복잡한 작업에 이르기까지:
- 비행기, 호텔, 택시 예약을 포함하여 전체 해외 여행 계획 세우기와 여행 일정 생성하기. 이 과정은 다양한
웹사이트와 응용 프로그램을 포함합니다.
- 현장에서의 비디오/오디오 번역 등
LAM(Large Action Model)은 작동 원리와 설계된 구조 덕분에 이 모든 것을 몇 초 만에 할 수 있습니다. 이러한 응용
프로그램 외에도, LAM은 로봇 모션 계획, 인간-로봇 상호 작용, 게임 개발에 활용될 수 있으며, 이는 비플레이어
캐릭터(NPC)의 현실적이고 지능적인 행동을 가능하게 하고 전반적인 게임 플레이 경험을 향상시킬 것입니다.
Applications of LAMs

대규모 액션 모델(LAM)은 다양한 산업의 비즈니스 애플리케이션에 걸쳐 엄청난 잠재력을 가지고 있습니다. 다음은 LAM 기술 사용에
대한 잠재적 비즈니스 사례들입니다:
가상 비서 및 고객 지원. LAM은 고객 질문에 대해 이해하고 응답할 뿐만 아니라 고객을 대신해 작업을 수행할 수 있는 고급 가상
비서를 개발하기 위한 핵심 프레임워크로 채택될 가능성이 있습니다.
프로세스 자동화. LAM은 조직을 위한 반복적이고 시간이 많이 소요되는 활동, 예를 들어 데이터 입력, 문서 처리 또는 재고 관리를
자동화할 수 있습니다. 예를 들어, 음성 입력을 통해 유사 문서를 빠르게 작성할 수 있습니다. 이는 시간과 비용 절감은 물론 인식
기술의 발전으로 정확성을 향상시키고 오류를 줄일 수 있습니다.
소매 및 고객 서비스. LAM은 고객의 쇼핑 이력, 선호도 및 행동을 분석하여 개인화된 추천을 제공할 수 있습니다. 과거 구매를
기반으로 상품, 프로모션 또는 레시피 아이디어를 추천할 수 있습니다. 또한, 고객 피드백 및 감정을 분석하여 실시간으로 고객 문제를
해결하는 영역을 식별할 수 있습니다. 이 모든 것은 소매업체가 전반적인 쇼핑 만족도를 높이고 매출을 증가시키는 데 도움이 될 수
있습니다.
Business Cases for LAMs

지금까지 살펴봤듯이, LLM과 LAM이 결합될 경우 인간의 행동을 대신할 AI 에이전트가 탄생할 수 있습니다. 일례로, 마케팅 분야에서 LLM이 카피
작성, 이미지 생성, 웹 레이아웃 생성 등의 역할을 하면, LAM은 이 과정을 자동화할 수 있습니다. 즉, 음성이나 문자 입력만으로 AI가 마케팅 자료,
고객 데이터, LLM 등에 접근해 이를 직접 다루는 게 가능해지는 것입니다. LAM의 특징은 크게 세 가지입니다.
1. 고급 데이터 처리: LAM은 방대한 데이터 세트를 처리하고 분석할 수 있습니다. 광범위한 데이터 해석이 필요한 애플리케이션에 효과적입니다.
2. 효율적인 의사 결정: LAM은 정교한 알고리즘을 통해 의사 결정 과정을 자동화합니다. AI 시스템이 더 복잡한 작업을 효과적으로 실행할 수 있도록
지원합니다.
3. 확장성과 유연성: LAM은 확장성이 매우 뛰어납니다. 간단한 자동화부터 복잡한 문제 해결까지 다양한 앱에 적용할 수 있습니다.
이와 같은 특징을 가진 LAM을 챗봇에 접목한다면 어떻게 될까요? 현재 자동차 판매 사이트에 부착된 AI 챗봇은 학습한 데이터를 기반으로 사용자
질문에 답변하지만, LAM을 결합한 챗봇은 소비자가 원하는 차량을 판별해 예약 주문까지 수행합니다. 즉, 개인화가 가능해지는 건데요. 사용자의
인터넷 활용 패턴을 학습해 일상 업무를 자동화할 수도 있습니다. LLM이 은행 대출 초안을 작성했다면, LAM은 은행에 대출 서류를 발송하는 일까지
대신하게 되는 것이죠.
LAM 기술은 휴먼 컴퓨터 인터페이스(HCI, Human Computer Interface, 사람의 음성, 뇌파, 근육, 동작 등을 기계가 인식하는 것) 영역을 크게 뒤바꿀
것으로 보입니다. 지금까지 컴퓨터와의 상호작용은 그래픽 유저 인터페이스(GUI, Graphical User Interface, 사용자가 컴퓨터와 정보를 쉽게 교환하고
상호 작용하기 위해 아이콘 등과 같은 그래픽을 이용한 사용자 인터페이스)를 통해 이뤄졌는데요. 버튼의 위치, 하위 레이어의 위치 등을 알고, 이를
작동하기 위해 직접 사람이 움직여야 했습니다. LAM과같이 복잡한 소프트웨어는 시간을 들여 학습해야 하기 때문에 초기에는 오히려 구식으로
느껴질 수 있습니다. 하지만 앞으로의 LAM 기술은 초보자도 전문 지식 없이 자유자재로 사용할 수 있고, 고령자나 장애인도 디지털 장벽 없이
소프트웨어를 작동할 수 있도록 만들 것입니다. LAM이 AI 에이전트의 서막이라고 불리는 이유입니다.
https://www.lgcns.com/blog/it-trend/52597/
LAM의 특징과 미래

A future that integrates LLMs and LAMs (Symposium)

More Related Content

What's hot

Similar to A future that integrates LLMs and LAMs (Symposium)

More from Tae Young Lee

A future that integrates LLMs and LAMs (Symposium)