- 인쇄
- PDF
도구 활용
- 인쇄
- PDF
Classic/VPC 환경에서 이용 가능합니다.
도구 활용에서는 익스플로러 메뉴에서 제공하는 다양한 도구의 활용 방법을 설명합니다. CLOVA Studio에서는 현재 일괄 생성 도구와 데이터 확장 도구를 제공하고 있습니다.
일괄 생성
일괄 생성은 사용자가 업로드한 대량의 작업을 일괄 처리하고 결과물 관리하는 도구입니다.
일괄 생성 도구 사용 방법은 다음과 같습니다.
- 네이버 클라우드 플랫폼 콘솔에서 Services > AI Services > CLOVA Studio 메뉴를 차례대로 클릭해 주십시오.
- My Product 메뉴 > [CLOVA Studio 바로가기] 버튼을 클릭해 주십시오.
- 익스플로러 메뉴를 클릭해 주십시오.
- 도구 탭 메뉴를 클릭한 후 일괄 생성의 [시작하기] 버튼을 클릭해 주십시오.
- 일괄 생성 화면이 나타나면 모델 엔진을 선택해 주십시오.
- 기본 모델을 선택한 경우, 프롬프트 템플릿을 작성해 주십시오.
- 프롬프트 템플릿은 플레이그라운드 작성 방법과 유사합니다.
- 프롬프트 템플릿은 3건 이상의 예시 세트로 구성되어야 하며, 각 예시 세트 사이에 ###을 입력하여 세트를 구분해 주십시오.
- 프롬프트 템플릿을 종료할 때는 반드시 {text}를 입력해 주십시오.
- 튜닝으로 사용자가 학습 모델을 직접 생성하는 경우, 튜닝을 참조해 주십시오.
- 기본 모델을 선택한 경우, 프롬프트 템플릿을 작성해 주십시오.
- 시드 데이터셋을 업로드해 주십시오.
- 업로드한 데이터셋의 패턴을 분석하여 비슷한 유형의 데이터셋으로 확장합니다.
- 시드 데이터셋 확장자는 CSV, JSONL만 지원하며, UTF-8 형식으로 인코딩되어야 합니다.
- 시드 데이터셋에는 10행 이상의 데이터를 작성해야 하며, 1행당 공백을 포함하여 1,000자 이하로 입력해 주십시오.
- 모델 엔진에서 튜닝 모델을 선택한 경우, 시드 데이터셋의 작업 유형이 튜닝 모델의 작업 유형과 일치해야 합니다.
- 데이터셋의 내용에 "#" 기호가 포함되어 있을 경우 성능이 저하될 수 있습니다.
- [실행] 버튼을 클릭해 주십시오.
- 작업 확인 창이 나타납니다.
- 작업을 시작하려면 [확인] 버튼을 클릭해 주십시오.
- 작업 내역을 확인하고 다운로드할 수 있는 [내 작업] 메뉴로 이동합니다.
- [중단] 버튼 클릭 시 작업이 중단되며 이전 화면으로 이동합니다.
- 작업 결과를 확인하고 다운로드하는 방법은 작업 관리를 참조해 주십시오.
- 일괄 생성 작업은 계정별로 동시에 1건만 수행할 수 있습니다.
- 일괄 생성 작업은 데이터 1건을 생성하는데 10초가 소요되며 시스템 환경에 따라 달라질 수 있습니다.
- 작업 시작 이후에 작업을 중단할 경우, 작업이 진행된 구간에 따라 과금 될 수 있으니 유의하여 진행해 주십시오.
시드 데이터셋을 기반으로 데이터를 일괄 생성하기 때문에 시드 데이터셋의 데이터에 따라 결과물이 크게 달라질 수 있습니다. 결과물을 예측하기 위해 플레이그라운드에서 다양한 프롬프트를 작성하고 테스트해 보십시오.
<예시>
시드 데이터셋과 결과물 예시는 다음과 같습니다.
데이터 확장
데이터 확장은 사용자가 업로드한 데이터 샘플을 원하는 양만큼 확장할 수 있는 도구입니다. 사용자가 시드 데이터셋을 업로드하면 언어 모델이 시드 데이터셋의 패턴을 분석하여 비슷한 유형의 데이터를 사용자가 원하는 만큼 생성해 줍니다.
데이터 확장 도구 사용 방법은 다음과 같습니다.
- 네이버 클라우드 플랫폼 콘솔에서 Services > AI Services > CLOVA Studio 메뉴를 차례대로 클릭해 주십시오.
- My Product > [CLOVA Studio 바로가기] 버튼을 클릭해 주십시오.
- 익스플로러 메뉴를 클릭해 주십시오.
- 도구 탭에서 데이터 확장의 [시작하기] 버튼을 클릭해 주십시오.
- 사용자가 업로드한 데이터를 확장하는데 필요한 기본 학습 모델인 모델 엔진을 선택해 주십시오.
- 모델 엔진을 선택한 후, 얻으려는 데이터의 개수를 입력해 주십시오.
- 최소 20행, 최대 50,000행 입력할 수 있습니다(행=데이터 개수).
- 업로드한 시드 데이터셋에 작성된 데이터 개수보다 큰 값을 입력해야 합니다.
- 시드 데이터셋을 업로드해 주십시오.
- 업로드한 데이터셋의 패턴을 분석하여 비슷한 유형의 데이터셋으로 확장합니다.
- 시드 데이터셋 확장자는 CSV, JSONL만 지원하며, UTF-8 형식으로 인코딩되어야 합니다.
- 시드 데이터는 최소 10행 이상 업로드해야 하며, 1행당 공백을 포함하여 1,000자 이하로 입력해 주십시오.
- 데이터셋의 내용에 "#" 기호가 포함되어 있을경우 성능이 저하될 수 있습니다.
- 모델 엔진을 HCX로 선택한 경우, 데이터셋은 "User: (대화 내용), Assistant: (대화 내용)" 포맷으로 작성되어야 합니다.
- [실행] 버튼을 클릭해 주십시오.
- 작업 확인 팝업 창이 나타납니다.
- 작업을 시작하려면 [확인] 버튼을 클릭해 주십시오.
- 작업 내역을 확인하고 다운로드할 수 있는 내 작업 메뉴로 이동합니다.
- [중단] 버튼 클릭 시 작업이 중단되며 이전 화면으로 이동합니다.
- 작업 결과를 확인하고 다운로드하는 방법은 [작업 관리] 를 참조해 주십시오.
사용자가 10개의 데이터셋을 업로드하고 원하는 데이터 수에 20을 입력하는 경우 업로드한 10개의 데이터셋과 신규로 생성된 10개의 데이터셋이 제공됩니다.
- 데이터 확장 작업은 계정별로 동시에 1건만 수행할 수 있습니다.
- 데이터 확장 작업 시 데이터 1건을 생성하는데 10초가 소요되며 시스템 환경에 따라 달라질 수 있습니다.
- 작업이 시작된 이후 작업을 중단할 경우, 작업이 진행된 구간에 따라 과금됩니다.
활용 사례
케어콜 대화 데이터셋 확장
데이터 확장은 답변(Completion)이 정해져 있는 정답형 작업보다 새로운 문장을 생성하는 창작형 작업에 더 적합합니다. 예를 들어 튜닝 학습을 하기 위해서는 최소 천 개 이상의 데이터가 포함된 데이터셋이 필요한데, 데이터 확장 도구를 사용하면 사용자가 수 천개의 데이터를 일일이 만들어야 하는 수고로움을 해결할 수 있습니다.
케어콜 대화 데이터셋을 확장하는 방법은 다음과 같습니다.
- 사용자가 데이터 확장에 사용할 시드 데이터 셋을 확보합니다. 케어콜 대화 셋 생성을 위하여 대화턴 100개를 생성하였습니다.
- 튜닝에 필요한 최소 데이터 수인 1천개로 확장 합니다.
- 100개의 대화턴이 1천개로 확장되어 결과물로 나옵니다.
- 데이터의 유효성을(오류) 검사하여 튜닝 학습을 위한 데이터셋 1천개를 확보합니다.
일괄 생성을 활용한 성능 테스트
튜닝한 모델 엔진의 성능을 확인하기 위해 테스트할 때 Input (Text)을 하나씩 입력하여 한 건의 Output (Completion)을 받아야 합니다. 하지만 일괄 생성 도구를 사용하면 여러 개의 Input을 한 번에 입력하고 결과를 받을 수 있습니다.
일괄 생성 도구로 튜닝 학습한 엔진의 성능을 테스트하는 방법은 다음과 같습니다.
케어콜 대화 데이터 셋 튜닝 학습 후 성능 테스트하는 방법은 다음과 같습니다.
- 데이터 확장한 1천 개의 결과물을 튜닝 학습시켜 주십시오.
- 일괄 생성에서 학습한 튜닝 모델을 모델 엔진으로 호출해 주십시오.
- 성능 테스트를 위해 Input(text) 값만 채워진 시드 데이터 셋을 준비해 주십시오.
- 시드 데이터 셋을 업로드하고 일괄 생성을 실행해 주십시오.
- 주어진 Input(text)에 알맞은 Output(completion)이 생성되어 결과물로 나옵니다.
- 원하는 결과물이 산출되었는지 유효성 테스트를 통해 튜닝 모델의 성능을 점검해 주십시오.
- 예시 파일 다운로드: 케어콜 대화 데이터 셋 튜닝 및 일괄 생성
일괄 생성 도구를 활용한 데이터 확장
반복적인 Input (Text)을 통해 다양한 Output (Completion)을 생성하는 작업에 적합합니다. 적은 개수의 Input(text)으로 다양한 Output(completion)을 생성하여 데이터를 확장할 수 있습니다.
일괄 생성 도구를 사용하여 데이터를 확장하는 방법은 다음과 같습니다.
상황에 맞는 크리스마스 문구를 생성하는 방법은 다음과 같습니다.
일괄 생성 서비스 화면에서 상황별 크리스마스 문구 생성 프롬프트 템플릿을 작성해 주십시오.
시드 데이터 셋 구성을 위하여 5개의 상황을(Input_text) 부여하되 각 상황을 20번씩 복사, 붙여넣기하여 총 100개의 시드 데이터셋을 만들어 주십시오.
결과를 확인해 주십시오.
- 5개의 Input(text) 값에 대하여 각기 다른 Output(completion)을 스무 번씩 생성하기 때문에 총 100개의 새로운 데이터를 확보할 수 있습니다.
- 예시 파일