GPTs Action? API? AI와 외부 도구 연결하는 'API' 제대로 이해하기

2025. 5. 4. 00:18IT 라이프/AI

반응형

GPTs Action? API? AI와 외부 도구 연결하는 'API' 제대로 이해하기

GPTs에 대해 들어보셨나요? 나만의 특별한 목적에 맞춰 chat GPT를 커스터마이징하여 만드는 게 GPTs인데요. GPTs는 기본적으로 대화형 AI의 특징을 가지며, 사용자와 자연스럽게 대화하며 정보를 주고받을 수 있습니다.

GPTs에서 커스터마이징을 한다는 것은 AI가 특정 역할을 더 잘 수행하도록 내부 설정을 조절하고 새로운 도구를 연결해주는 것을 의미합니다. 주로 다음 방법들을 통해 커스터마이징하게 됩니다.

1. Instruction (지시사항) 작성: AI에게 '너는 어떤 역할이야', '사용자가 질문하면 이렇게 답변해 줘', '이런 규칙을 꼭 지켜줘' 와 같이 글로 자세하게 알려주는 것입니다. 마치 새로 온 팀원에게 업무 매뉴얼과 가이드라인을 주는 것과 같아요. 이것이 GPTs 커스터마이징의 가장 기본적인 방법입니다.

2. Knowledge (지식) 추가: 특정 파일(PDF, 문서 등)을 업로드하여 AI가 해당 파일의 내용을 답변에 참고하도록 하는 것입니다. AI에게 특정 분야의 '전문 서적'을 제공하는 것과 같죠.

3. 기본 기능 활성화 (Capabilities): 웹 브라우징, 이미지 생성(DALL-E), 코드 해석(Code Interpreter) 같은 챗GPT의 기본 내장 기능을 사용할지 말지 설정하는 것입니다.

4. Action 연결: 바로 이 글에서 다루는 내용으로, 외부의 다른 서비스나 도구(API)를 연결하여 AI가 새로운 기능을 사용할 수 있게 해주는 것입니다.


이렇게 커스터마이징된 GPTs는 사용자와 여전히 대화를 통해 상호작용하지만, 그 대화 속에서 설정된 역할이나 지식을 활용하고, 필요하다면 외부도구(Action)의 도움을 받아 더 복잡하거나 전문적인 작업을 수행할 수 있게 됩니다.

정말 강력하고 편리한 기능이죠! 그런데 이렇게 만든 GPTs를 사용하거나 직접 만들어보려다가 혹시 이런 경험 해보신 적 있으신가요?
- "AI한테 최신 웹 정보를 가져와달라고 했는데, 특정 사이트는 못 들어가네?"
- "GPTs를 만들려고 설정(Configure) 화면을 보는데 'Action', 'Import from URL', 'openapi.yaml' 같은 어려운 단어들이 막 나와서 머리가 아파..."
- "어디서 'API를 활용하시면 되요' 라는 말을 들었는데, 그게 도대체 어떻게 하는건지 모르겠어요"

이 어려운 용어들이 왜 나오고, GPTs의 'Action' 기능이 무엇이며, 그 이면에 숨겨진 'API'라는 기술이 대체 무엇인지, 그리고 이것들이 왜 AI 기능을 확장하는 데 중요한지를 가능한 한 쉽게 말해볼게요.

 

1. GPTs Action: AI 기능 확장의 연결고리

GPTs의 Action은 사용자가 만든 GPTs가 외부의 다른 서비스나 도구와 연동하여 특정 기능이나 데이터를 활용할 수 있게 해주는 역할을 합니다. 이는 GPTs에게 자체적으로는 수행하기 어려운 전문적인 작업을 외부 도구에 위임하고 그 결과를 받아오게 함으로써 AI의 능력을 확장하는 방법입니다.

 

예를 들어, Webpilot과 같은 외부 웹 전문 도구를 Action 기능을 통해 GPTs에 연결할 수 있습니다. 이 과정은 GPTs 설정에서 'Action 추가'를 선택하고, Webpilot 서비스 제공자가 제공하는 특정 정보(Import from URL에 입력하는 스키마 파일 주소, 개인정보처리방침 주소 등)를 입력함으로써 이루어집니다.

 

- Webpilot: 웹 페이지 접근 및 정보 추출에 특화된 외부 서비스입니다.

- Action: GPTs와 Webpilot 같은 외부 서비스를 기술적으로 연결해주는 기능입니다.

- Import from URL + 스키마 파일(.yaml): 연결하려는 외부 서비스(Webpilot)가 자신의 기능과 통신 방법을 정의해 놓은 기술 명세 파일(API 스키마)의 웹 주소입니다. GPTs는 이 정보를 통해 외부 서비스와 어떻게 데이터를 주고받아야 하는지 학습합니다.

- Privacy Policy: 외부 서비스 이용 시 데이터 처리 방식에 대한 정보가 담긴 문서의 주소입니다.

 

Action 기능을 활용하면 GPTs는 특정 웹사이트 분석이나 데이터 검색 등 Webpilot이 잘하는 작업을 Webpilot에게 '요청'하고, Webpilot은 작업을 수행한 후 그 결과를 GPTs에게 '응답'으로 돌려주게 됩니다. 이는 사용자가 복잡한 기술 과정 없이도 GPTs를 통해 외부 전문 기능에 접근할 수 있게 합니다.

 

2. Action 그 이면의 기술: API (Application Programming Interface)

GPTs Action에서 '외부 도구' 또는 '외부 서비스'라고 불리는 대상들은 개발 분야에서 API (Application Programming Interface)라고 통칭되는 기술을 통해 접근됩니다.

 

API는 서로 다른 소프트웨어 시스템이나 서비스들이 정의된 규칙에 따라 통신하고 상호작용할 수 있게 해주는 인터페이스 또는 통신 규약입니다. 한 프로그램이 다른 프로그램에게 특정 기능의 수행을 요청하고 결과를 응답받는 메커니즘입니다.

 

- 요청 (Request): 기능을 사용하려는 쪽(클라이언트, 예: GPTs)이 기능 제공자(서버, 예: Webpilot 서비스)에게 특정 작업 수행을 요청하는 행위입니다.

- 응답 (Response): 기능 제공자(서버)가 요청받은 작업을 처리한 후 그 결과나 상태를 요청자(클라이언트)에게 응답하는 것입니다.

 

우리가 일상적으로 사용하는 많은 서비스들은 내부적으로 복잡한 API 통신을 통해 다른 서비스의 기능을 활용하고 있습니다. GPTs Action 기능은 이러한 API를 활용하여 AI의 능력을 확장하는 방법을 사용자에게 편리하게 제공하는 것입니다.

 

3. API 사용이 어렵게 느껴지는 이유

API라는 개념이 이해되더라도, 막상 "이 API를 사용하세요"라는 요구를 받으면 어렵게 느껴질 수 있습니다. 이는 API가 가지는 다음과 같은 특성 때문입니다.

 

- API의 다양성과 고유성: 모든 API는 특정 목적을 위해 설계되었으며, 제공하는 기능, 필요한 입력 데이터 형식, 응답 데이터 형식, 데이터를 주고받는 규칙, 보안(인증) 방식 등이 각기 다릅니다. Request/Response라는 큰 틀은 같지만, 세부적인 '사용법'은 API마다 완전히 다릅니다.

- API 문서를 읽고 해석하는 능력 요구: 특정 API를 사용하려면 해당 API 제공자가 작성한 **공식 문서(Documentation)**를 숙지해야 합니다. 이 문서에는 API가 제공하는 기능 목록, 각 기능을 사용하기 위한 상세 기술 정보(요청 주소, 필요한 데이터 형식, 인증 방법, 응답 구조, 오류 코드 등)가 모두 담겨 있습니다. 문서를 읽고, 필요한 정보를 찾아내며, 이를 실제 사용하려는 환경(코드 또는 설정)에 맞게 적용하는 과정이 익숙하지 않으면 어렵게 느껴질 수 있습니다.

 

따라서 API 사용의 어려움은 개념 자체보다는 개별 API의 고유한 규칙을 파악하고, 그 내용을 기반으로 필요한 설정이나 코드를 작성하는 능력과 관련된 경우가 많습니다.

 

4. 개발자의 API 활용: 코드를 통한 직접 제어

GPTs Action이 GUI 기반 설정으로 API를 활용하게 해준다면, 개발자는 프로그래밍 코드 내에서 API를 직접 호출하여 사용합니다. 앞서 제시된 파이썬 코드 예시가 바로 그 예입니다.

 

예를 들어, 텍스트 번역 기능을 위해 OpenAI의 Chat Completion API를 사용한다고 가정해 보겠습니다. 개발자는 파이썬 코드에서 다음과 같은 함수를 작성함으로써 API 호출 과정을 추상화하고 재사용성을 높일 수 있습니다.

from openai import OpenAI

# OpenAI 클라이언트 객체를 생성한다
# API 키는 코드 밖에 환경 변수(OPENAI_API_KEY)에 설정하면 이 객체가 자동으로 읽어온다
client = OpenAI()

# 텍스트 번역을 요청하는 함수를 정의한다
def translate(text, src_lang, trg_lang):
    """
    OpenAI Chat Completion API를 사용하여 텍스트를 번역한다
    """
    # AI에게 번역가 역할을 부여하는 지시사항(System Instruction)
    system_instruction = f"assistant는 번역가로서 동작한다. {src_lang}를 {trg_lang}으로 적절하게 번역하고 번역된 텍스트만 출력한다."

    # API에 보낼 메시지 목록을 구성한다. (역할과 내용 포함)
    messages = [
        {"role": "system", "content": system_instruction},
        {"role": "user", "content": text}
    ]

    # OpenAI Chat Completion API를 호출
    response = client.chat.completions.create(
        model="gpt-4o",  
        messages=messages 
    )
    # API 호출 부분 끝

    # API 응답에서 번역된 텍스트를 추출한다
    translated_text = response.choices[0].message.content

    return translated_text # 번역된 텍스트 반환

 

이 함수 내에서 client.chat.completions.create(...) 부분이 OpenAI의 Chat Completion API를 호출하는 실제 코드입니다. 개발자는 이 함수를 만들기 위해 다음을 알아야 합니다.

 

- 파이썬 프로그래밍 지식: 함수 정의, 변수, 데이터 구조(리스트, 딕셔너리) 사용 등 기본 문법.

- 라이브러리 사용법: openai와 같이 API 사용을 돕는 라이브러리의 설치 및 사용 방법.

- 해당 API (OpenAI Chat Completion API)를 사용하는데 필요한 지식:

    - API를 사용하기 위한 인증 방식 (API 키 등) 및 키를 안전하게 관리하는 방법 (예: 환경 변수 사용). 코드 내에 키를 직접 넣는 대신 OPENAI_API_KEY 같은 환경 변수에 설정해두면 라이브러리가 자동으로 읽어와 사용하는 방식이 권장됩니다.

    - API에 요청할 때 필요한 데이터의 정확한 형식과 구조 (예: 메시지의 'role'과 'content').

    - API 호출 후 응답으로 돌아오는 데이터의 구조 및 필요한 정보(번역 결과)가 어느 위치에 있는지.

    - API 호출 시 설정할 수 있는 매개변수(Parameters)의 종류와 의미 (예: 사용할 모델 지정).

 

이는 모두 해당 API의 공식 문서(Documentation)에 상세히 설명되어 있으며, 개발자는 문서를 참고하여 이 정보들을 코드로 구현하게 됩니다.

 

5. 원하는 API 찾고, 설명서 효율적으로 읽는 방법

API 사용이 막막하게 느껴진다면, 다음 방법을 통해 접근해 볼 수 있습니다.

 

- API 검색: 필요한 기능과 관련된 키워드에 "API"를 붙여 검색합니다.

    - 예: "날씨 API", "번역 API", "SMS 발송 API", "[특정 서비스 이름] API"

- 공식 문서(Documentation) 확인: 검색 결과에서 찾은 API 제공자의 공식 웹사이트 내 "Developers", "API", "Documentation" 섹션으로 이동합니다.

- 문서 효율적으로 읽는 방법: 방대한 문서 전체를 처음부터 볼 필요는 없으며, 아래 부분들부터 보시면 API 사용에 필요한 핵심 정보를 빠르게 파악할 수 있습니다.

    - Getting Started / Quickstart: 첫 API 호출 성공을 위한 최소한의 가이드.

    - Authentication: API 사용을 위한 인증 설정 방법

    - API Reference / Endpoints: 각 기능별 요청/응답 상세 정보

    - Examples: 실제 코드 예시

 

결론

GPTs Action은 AI의 기능을 외부 서비스와 연동하여 확장하는 강력한 방법이며, 그 기술적 기반에는 API가 있습니다. 비개발자는 Action 기능을 통해 API를 간접적으로 활용하고, 개발자는 코드를 통해 API를 직접 제어합니다.

 

API 사용은 각 API의 고유한 규칙을 이해하고 문서를 참고하는 과정이 필요하지만, 이는 다양한 디지털 서비스가 어떻게 상호작용하는지를 이해하는 중요한 열쇠입니다. GPTs Action 설정을 통해 API를 접해보거나, 필요한 기능의 API 문서를 찾아보는 시도는 AI와 기술에 대한 이해도를 높이는 좋은 출발점이 될 것입니다.

728x90
반응형