Trace Id is missing
주 콘텐츠로 건너뛰기
Azure

LLM(큰 언어 모델)이란?

LLM의 작동 방식에 대한 개요를 확인하고 AI 기반 솔루션을 빌드하는 데 사용되는 방법을 알아보세요.

LLM의 의미

LLM(대규모 언어 모델)은 기계 학습 기술을 통해 학습된 데이터를’사용하여 자연어 또는 인간과 유사한 텍스트를 이해하고 생성하는 고급 AI 시스템입니다. LLM은 텍스트 기반 콘텐츠를 자동으로 생성할 수 있습니다. 이 콘텐츠는 산업 전반에서 수많은 사용 사례에 적용될 수 있으므로 전 세계 조직의 효율성과 비용을 절감할 수 있습니다. 

핵심 내용

  • LLM은 자연어를 이해하고 생성할 수 있는 고급 AI 시스템입니다.
  • LLM은 딥 러닝 아키텍처 및 기계 학습 기술을 사용하여 다양한 데이터 원본의 정보를 처리하고 통합합니다.
  • LLM은 언어 생성 및 번역과 같은 주요 이점을 다양한 필드 집합에 제공합니다.
  • 획기적이지만 LLM은 계산 요구 사항, 윤리적 문제 및 이해 컨텍스트의 제한 사항을 포함할 수 있는 문제에 직면합니다.
  • 이러한 과제에도 불구하고 조직에서는 콘텐츠 만들기, 챗봇, 번역 및 감정 분석과 같은 작업을 위해 GPT(생성형 사전 학습 트랜스포머) 시리즈 및 BERT(양방향 인코더 표현 트랜스포머)를 이미 사용하고 있습니다.

LLM 작동 방식

LLM의 간략한 기록

LLM은 현대에 개발되었지만, NLP(자연어 처리) 연구는 Turing이 컴퓨터 간의 지능형 동작을 측정하기 위해 Turing 테스트를 시작했던 1950년으로 거슬러 올라갑니다. 테스트에서 인간 심사자가 질문 집합을 사용하여 컴퓨터에 말하고 컴퓨터 또는 인간에게 말하고 있는지를 결정해야 합니다.
1980년대부터 1990년대에 이르기까지 NLP는 논리 실험에서 더 많은 데이터 기반 접근 방식으로 전환되었습니다. 문장 앞의 단어에 따라 다음에 올 가능성이 있는 단어를 예측하는 기능을 통해 n-gram과 같은 통계 언어 모델은 새로운 시대를 위한 토대를 마련했습니다. 2010년 초까지 최신 신경망은 이러한 언어 모델의 기능을 더욱 확장하여 단어의 표현과 의미를 더 깊이 이해하도록 단어 순서를 결정하는 것 이상으로 전환할 수 있도록 했습니다.
이러한 새로운 개발은 2018년 8명의 Google 과학자가 기계 학습에 대한 랜드마크 연구인 “Attention is All You Need(필요한 것은 관심 뿐)”를 작성 및 발표했을 때 혁신을 이룬 것입니다. 특히 이 문서에서는 더 높은 정확도와 규모로 복잡한 텍스트 정보를 관리하고 이해할 수 있는 혁신적인 신경망 프레임워크인 트랜스포머 아키텍처를 도입했습니다. 이제 트랜스포머는 GPT 시리즈뿐만 아니라 BERT를 포함하여 오늘날 가장 강력한 LLM 중 일부에 기초가 됩니다.

기본 아키텍처

오늘날의 최신 LLM은 트랜스포머 및 기타 심층 신경망 프레임워크와 같은 심층 학습 아키텍처를 사용하여 다양한 데이터 원본의 정보를 처리합니다. 트랜스포머는 텍스트와 같은 순차적 데이터를 처리하는 데 특히 효과적이며, 이를 통해 언어 생성 및 번역과 같은 작업에 대한 자연어를 이해하고 생성할 수 있습니다. 
트랜스포머는 인코더와 디코더의 두 가지 기본 구성 요소로 구성됩니다. 이러한 구성 요소는 종종 함께 작동하여 시퀀스를 처리하고 생성합니다. 인코더는 원시 텍스트 데이터를 가져와서 해당 입력을 모델에서 분석할 수 있는 불연속 요소로 바꿉니다. 그런 다음 디코더는 일련의 계층을 통해 해당 데이터를 처리하여 최종 출력을 생성합니다. 예를 들어 생성된 문장으로 구성될 수 있습니다. 트랜스포머는 모델 또는 태스크의 유형에 따라 인코더 또는 디코더로만 구성될 수도 있습니다.

교육 프로세스

LLM에 대한 학습 프로세스는 데이터 수집, 모델 학습 및 미세 조정의 세 가지 주요 단계로 구성됩니다. 
데이터 수집 단계에서 모델은 인터넷 리소스, 서적, 문서 및 데이터베이스를 비롯한 다양한 원본에서 대량의 텍스트 데이터에 노출됩니다. 또한 데이터는 언어 패턴, 문법, 정보 및 컨텍스트에 대한 모델을 학습하는 데 사용할 수 있도록 NoSQL 데이터베이스를 정리, 처리, 표준화 및 저장합니다. 
학습 전 단계에서 모델은 데이터의 언어에 대한 이해를 구축하기 시작합니다. 이 작업은 모델이 컨텍스트에 따라 텍스트를 예측하는 방법을 학습하는 대규모의 감독되지 않은 작업을 통해 수행됩니다. 일부 기술에는 모델에서 시퀀스의 다음 단어를 예측하는 방법을 학습하는 자동 회귀 모델링과 모델이 컨텍스트를 이해하기 위해 마스킹된 단어를 채우는 마스킹된 언어 모델링이 포함됩니다. 
마지막으로, 미세 조정 단계 중에 모델은 더 작고 더 많은 작업별 데이터 세트에 대해 추가로 학습됩니다. 이 프로세스는 모델의 지식을 구체화하고 감정 분석 또는 번역과 같은 특정 작업에 대한 성능을 향상시켜 다양한 애플리케이션에 사용할 수 있도록 합니다.

핵심 구성 요소

트랜스포머 모델은 원시 텍스트를 토큰이라고 하는 텍스트의 더 작은 기본 단위로 나눕니다. 토큰은 사용 사례에 따라 단어, 단어 부분 또는 개별 문자로 구성될 수 있습니다. 그런 다음, 이러한 토큰은 순서, 의미 체계 및 컨텍스트를 캡처하는 조밀한 숫자 표현으로 변환됩니다. 그런 다음 embeddings라고 하는 이러한 표현은 자가 주의 및 신경망이라는 두 하위 계층으로 구성된 레이어 스택을 통해 전달됩니다.
두 계층 모두 모델이 효과적으로 처리할 수 있는 형태로 텍스트를 변환하는 데 도움이 되지만, 자기 주의 메커니즘은 변환기 아키텍처의 핵심 구성 요소입니다. 자기 주의 메커니즘은 모델이 텍스트 시퀀스의 여러 부분에 있는 홈에 배치할 수 있게 하고 위치에 관계없이 시퀀스의 다른 토큰에 상대적인 정보 값을 동적으로 가중시킵니다. 또한 이 메커니즘은 LLM에 기록된 언어의 복잡한 종속성, 관계 및 상황별 미묘한 차이를 캡처할 수 있는 용량을 제공합니다.

이점 및 과제

이점

LLM은 업무와 사회에서 상당한 발전에 기여한 많은 혜택을 제공합니다.

향상된 언어 생성 및 번역

LLM은 단어 간의 미묘한 관계를 이해하고 캡처할 수 있으므로 인간과 유사한 자연스러운 텍스트를 생성하는 데 탁월하므로 언어 생성이 향상됩니다. 창의적이고 상황에 맞는 응답을 유창하고 일관되게 생성할 수 있으며, 이 작업을 다양한 형식으로 수행할 수 있습니다.
의미의 미묘한 차이를 컨텍스트화하고 찾을 수 있으므로 다국어 데이터에 대해 학습된 LLM은 매우 정확한 번역을 수행할 수도 있습니다. 특정 언어 집합에 대한 모델을 학습하면 관용구, 식 및 기타 복잡한 언어 기능을 처리하는 능력을 미세 조정하여 유기적이고 유창한 번역을 할 수 있습니다.

다양한 필드의 애플리케이션

LLM은 의료, 재무 및 고객 서비스를 비롯한 여러 필드에 많은 애플리케이션이 있는 다목적 도구입니다.
 
의료 분야에서 LLM은 다음을 할 수 있습니다. 
  • 가능한 조건에 대한 환자 보고서를 분석하고 예비 진단을 제공합니다. 
  • 환자 메모 및 퇴원 기록을 생성하여 관리 작업을 간소화합니다. 
  • 환자 기록에 따라 맞춤형 치료 계획 및 의료 서비스를 제안합니다.  
  금융 부문에서 LLM은 다음을 수행할 수 있습니다.
  • 사기 행위를 나타낼 수 있는 금융 데이터에서 비정상적인 활동을 식별합니다. 
  • 시장 추세 및 재무 보고서를 분석하여 재무 위험을 평가합니다. 
  • 고유한 재무 기록 및 목표에 따라 개인 설정된 권장 사항을 제안합니다.  
  고객 서비스에서 LLM은 다음을 수행할 수 있습니다.
  • 대화형 에이전트 및 챗봇을 통해 자동화된 고객 지원을 추진하세요. 
  • 고객에게 종일 지원을 제공하여 조직’서비스의 범위를 확장합니다.
  • 일반적인 질문에 따라 콘텐츠를 생성하여 설명서를 만들고 업데이트할 수 있습니다.  

과제

LLM은 중요한 이점을 제공하지만 고려해야 할 과제도 있습니다.

계산 및 에너지 요구 사항

LLM은 강력하지만 작동하려면 상당한 양의 계산 리소스, 스토리지 및 에너지 소비가 필요합니다. 학습 중에 변환기는 입력 시퀀스의 길이에 따라 크기가 조정되므로 텍스트가 길수록 더 많은 메모리가 필요합니다. 이러한 요구는 비용이 많이 들 뿐만 아니라 환경에 상당한 양의 탄소를 내보낸다.
클라우드 컴퓨팅 플랫폼은 유연하고 확장 가능한 인프라를 제공하여 LLM의 과도한 계산 부하를 지원할 수 있으므로 조직에서 자체 모델을 개발하기 시작할 수 있습니다. 그러나 LLM의 환경적 영향은 어려운 과제이며 에너지 효율적인 모델 및 기술이 필요하다는 것을 나타냅니다.

윤리적 문제(예: 바이어스, 잘못된 정보)

LLM은 학습된 데이터만큼만 좋습니다. 학습 데이터의 특정 그룹에 대한 판별적 바이어스인 경우 모델은 이러한 취약성을 강조 표시합니다. 모델이 공평하게 유지되도록 이러한 바이어스를 식별하고 완화하는 것은 지속적 작업이며, 잦고 일관된 인간 모니터링이 필요합니다.
또한 LLM은 강력하고 사실적인 잘못된 정보를 생성하여 잘못된 정보, 가짜 뉴스, 피싱 전자 메일 및 기타 형태의 유해한 콘텐츠가 확산됩니다. 콘텐츠 조정 지침은 지역마다 다를 수 있으므로 탐색하기가 어렵습니다. 따라서 많은 조직에서는 비즈니스 운영에 LLM을 도입할 때 사용자에 대한 신뢰를 구축하고 유지하는 것이 어려울 수 있습니다.

컨텍스트 및 미묘한 차이 이해의 제한 사항

LLM은 언어로 패턴을 식별하는 데 탁월하지만 더 미묘한 이해가 필요한 새 컨텍스트 또는 알 수 없는 컨텍스트로 여전히 어려움을 겪을 수 있습니다. 결과적으로 중요한 소유 데이터에 대해 학습된 LLM은 실수로 학습 데이터에서 기밀 정보를 생성하거나 공개할 수 있습니다. 
특히 LLM의 내부 작업에 투명성이 부족하기 때문에 이 문제를 해결하면 상당한 문제가 발생할 수 있습니다. 이로 인하여 전반적인 책임 부족뿐만 아니라 신뢰 구축과 관련된 문제가 될 수 있습니다. 

형식 및 사용 사례

GPT 시리즈

2018년 OpenAI에서 처음 개발한 GPT 시리즈는 LLM에 대한 데이터 수집, 사전 학습 및 미세 조정의 기본 개념을 도입했습니다. 2019년에 릴리스된 GPT-2는 모델의 기능을 크게 확장하고 상황에 맞는 언어를 생성하는 기능을 개선했습니다. GPT-3은 복잡한 프롬프트 및 작업을 처리하기 위한 모델 용량을 발전했습니다. 최신 반복인 GPT-4는 2023년에 릴리스되었으며, 바이어스를 포함하여 모델의 이전 과제 중 일부를 해결하는 동시에 프롬프트에 더욱 정확하고 미묘한 응답을 제공합니다. 
오늘날 GPT는 자연어 생성 분야에서 가능한 기능의 경계를 계속 밀어붙입니다. 시리즈의 각 모델은 이전 모델을 기반으로 하여 AI 기반 혁신을 추진합니다. 

BERT 및 해당 변형

2018년 Google에서 개발한 BERT는 LLM으로 가능한 것에 대한 표준을 설정한 획기적인 모델입니다. 단방향 방식으로 텍스트를 처리하는 GPT 시리즈와 달리(왼쪽에서 오른쪽 또는 오른쪽에서 왼쪽으로) BERT는 양방향 접근 방식을 사용합니다. 양방향 모델은 양방향에서 각 단어의 컨텍스트를 동시에 처리하므로 BERT는 다음 문장 예측 외에도 마스킹된 언어 모델링을 수행할 수 있습니다. 또한 연구진은 감정 분석과 같은 작업에 대해 BERT를 미세 조정하고 그 결과로 새 벤치마크를 설정하여 현장의 발전에 기여했습니다.  

기타 주목할 만한 모델

2019년 Facebook AI에서 개발한 RoBERTa(강력한 최적화 BERT 접근 방식)는 사전 학습 프로세스를 최적화하여 BERT의 양방향 변환기 아키텍처를 확장하는 BERT 모델의 변형입니다. RoBERTa는 더 큰 데이터 집합으로 더 오래 학습됩니다. 또한 마스킹된 언어 모델링에만 중점을 둡니다. 이를 통해 RoBERTa는 컨텍스트와 미묘한 차이를 캡처하는 강력한 기능을 보여 줄 수 있습니다. 
Google Research에서 개발한 T5(텍스트 간 전송 변환기)는 또 다른 주목할 만한 LLM입니다. 기존 모델과 마찬가지로 T5는 변환기 아키텍처를 기반으로 하며 인코더와 디코더를 사용하여 사전 학습 단계에서 텍스트를 처리합니다. 기존 모델과 달리 T5는 입력과 출력을 모두 텍스트 문자열로 처리하여 아키텍처를 간소화하고 학습 프로세스를 간소화합니다. T5 모델은 다양한 작업을 처리할 수 있는 적응 가능한 범용 모델입니다.

콘텐츠 만들기 및 요약

LLM은 다양한 스타일과 형식으로 매력적이고 정보 있고 상황에 맞는 콘텐츠를 생성할 수 있습니다. 메시지가 표시되면 문서, 보고서, 블로그 게시물, 전자 메일, 마케팅 복사본 및 코드 조각을 생성할 수 있습니다.   
요약과 관련하여 LLM은 대용량 텍스트를 간결하고 정확한 스냅샷으로 변환하는 고유한 기능을 돋보이게 합니다. 원본 콘텐츠의 원래 컨텍스트와 의미를 유지하면서 핵심 요소를 표시할 수 있습니다. 연구원들은 이미 LLM을 사용하여 연구 논문, 문서, 프레젠테이션 및 모임 노트를 요약하여 시간을 절약하고 생산성을 높이고 있습니다.

대화형 에이전트 및 챗봇

대화형 에이전트 및 챗봇은 LLM의 고급 자연어 처리 기능을 사용하여 인간과 유사한 상호 작용을 생성합니다. 사용자 입력을 해석하고 유창하고 자연스럽고 상황에 맞는 방식으로 응답합니다. 질문에 대답할 수 있을 뿐만 아니라 길고 복잡한 대화에 참여할 수도 있습니다. 
챗봇 및 가상 도우미가 추가되어 이제 기업은 고객에게 연중무휴 지원을 제공하여 서비스 가용성을 확장하고 응답 시간을 개선하며 전반적인 고객 만족도를 높일 수 있습니다.

언어 번역 및 감정 분석

다국어 데이터 세트에 대해 광범위하게 학습된 LLM은 다양한 언어에서 매우 정확한 번역을 생성합니다. 기존 모델과 달리 LLM은 멱등식과 같은 언어의 미묘함과 복잡성을 캡처하여 유창하고 상황에 맞는 번역을 생성할 수 있습니다. 
LLM은 텍스트의 기본 감정 톤을 분석하는 감정 분석을 수행할 수도 있습니다. LLM은 언어의 미묘한 부분을 처리하고 해석하여 보다 정확하고 통찰력 있는 감정 평가를 제공합니다. 심지어 조롱과 같은 더 미묘한 감정을 감지할 수도 있습니다. 

개인 설정된 추천

LLM은 사용자 기록 및 기본 설정을 비롯한 사용자 데이터를 분석하고 사용자의 관심사와 요구 사항을 반영하는 맞춤형 권장 사항을 생성하여 전반적인 사용자 환경을 향상시킬 수 있습니다. 
이 기능은 전자 상거래, 콘텐츠 스트리밍 및 소셜 미디어에서 널리 사용되며, 맞춤형 권장 사항을 제공하면 더 의미 있는 상호 작용을 유도합니다. 학생에게 맞춤형 학습 환경을 제공하여 LLM을 교육 도구로 사용할 수도 있습니다.

다음 단계

연구원이 계속해서 이해, 효율성 및 확장성을 개선함에 따라 LLM은 복잡한 언어 작업을 처리하는 데 훨씬 더 능숙해질 것으로 예상됩니다. LLM 채택이 증가함에 따라 점점 더 많은 조직에서 간소화된 자동화, 향상된 개인 설정 및 전반적인 의사 결정 프로세스를 경험하게 될 것입니다. 
연구원들은 지속적인 문제인 바이어스 문제를 해결하는 새로운 방법을 계속 탐색하고 있습니다. 여기에는 학습 중에 바이어스를 다루는 비편향 알고리즘, 공정성을 반영하도록 데이터 세트의 균형을 조정할 수 있는 가상 데이터 통합, 모델 결정을 더 잘 이해하기 위한 설명 도구, 바이어스를 보다 정확하게 식별하고 수량화하는 데 도움이 되는 검색 벤치마크가 포함됩니다. 
텍스트, 이미지, 오디오 및 비디오 데이터를 처리하는 다중 모달 모델도 점점 더 정교해지고 있습니다. LLM은 구문과 의미를 평가하여 텍스트 데이터를 처리하는 반면, 다중 모달 모델은 컴퓨터 비전 기술뿐만 아니라 임시 처리를 통해 오디오 데이터를 통해 시각적 데이터를 분석합니다. Form Multimodal 모델의 최상위 모델은 오늘날의’기술을 향상하는 동시에 미래의 혁신을 위한 토대를 마련하고 있습니다.
리소스

Azure AI에 대한 자세한 정보

컴퓨터 앞에 앉아 있는 한 사람
리소스

학생 개발자 리소스

커리어를 빠르게 시작하는 데 도움이 되는 학습 자료 및 프로그램을 활용하세요.
원형으로 둘러 앉아 있는 사람들
리소스

Azure 리소스

자습서, 백서 및 코드 샘플을 포함하여 필요한 모든 Azure 리소스에 액세스합니다.
컴퓨터를 보며 미소 짓고 있는 사람
리소스

Azure 학습 허브

역할 또는 특정 기술에 맞게 사용자 지정된 교육을 통해 AI 기술을 빌드하세요.
FAQ

질문과 대답

  • LLM은 큰 언어 모델을 의미합니다.
  • AI는 단순한 언어를 넘어 광범위한 애플리케이션을 다루는 광범위한 분야입니다. 여기에는 인간 지능을 복제하는 것을 목표로 하는 모든 기술이 포함됩니다. 특정 유형의 AI 모델인 LLM은 자연어 텍스트 처리 및 생성에 중점을 둔 광범위한 AI 환경의 하위 집합입니다.
  • NLP(자연어 처리)는 언어 처리에 초점을 맞춘 가장 중요한 필드를 의미하지만, LLM(큰 언어 모델)은 딥 러닝 기술을 사용하여 언어 작업을 처리하는 NLP 필드 내의 특정 고급 모델 유형입니다.
  • 생성 사전 학습된 변환기(GPT)는 OpenAI에서 개발한 특정 일련의 LLM(대규모 언어 모델)을 나타냅니다. 언어 생성에 중점을 둔 LLM 유형입니다.