Vertex AI in Firebase SDK를 사용하여 앱에서 Vertex AI Gemini API를 호출할 때 Gemini 모델에 멀티모달 입력을 기반으로 텍스트를 생성하도록 프롬프트할 수 있습니다. 멀티모달 프롬프트에는 이미지, PDF, 동영상, 오디오와 함께 텍스트와 같은 여러 모달(또는 입력 유형)이 포함될 수 있습니다.
입력의 텍스트가 아닌 부분(예: 미디어 파일)의 경우 지원되는 파일 형식을 사용하고, 지원되는 MIME 유형을 지정하고, 파일과 다중 모드 요청이 요구사항을 충족하고 권장사항을 준수하는지 확인해야 합니다.
이 페이지에서는 다음에 대해 지원되는 MIME 유형, 권장사항, 제한사항을 설명합니다.
Vertex AI in Firebase SDK와 관련된 요구사항
Vertex AI in Firebase SDK의 경우 총 최대 요청 크기는 20MB입니다. 요청이 너무 크면 HTTP 413 오류가 발생합니다.
파일 크기로 인해 총 요청 크기가 20MB를 초과하는 경우 Cloud Storage for Firebase URL을 사용하여 멀티모달 요청에 파일을 포함합니다.
파일이 작은 경우 종종 인라인 데이터로 직접 전달할 수 있습니다. 그러나 인라인 데이터로 제공된 파일은 전송 중에 base64로 인코딩되므로 요청 크기가 커집니다. 예를 들면 다음과 같습니다. 파일을 인라인 데이터로 포함하려면 Gemini API를 사용하여 멀티모달 프롬프트에서 텍스트 생성.
이미지: 요구사항, 권장사항, 제한사항
이미지: 요구사항
이 섹션에서는 지원되는 MIME 유형 및 이미지
지원되는 MIME 유형
Gemini 멀티모달 모델은 다음과 같은 이미지 MIME 유형을 지원합니다.
이미지 MIME 유형 | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG - image/png |
|||
JPEG - image/jpeg |
|||
WebP - image/webp |
요청당 한도
이미지의 픽셀 수에는 제한이 없습니다. 하지만 큰 이미지는 최대 해상도 3072x에 맞게 축소되고 패딩됨 3072(원본 가로세로 비율을 유지함)
프롬프트 요청에 허용되는 최대 이미지 파일 수는 다음과 같습니다.
- Gemini 1.0 Pro Vision: 이미지 16개
- Gemini 1.5 Flash 및 Gemini 1.5 Pro: 이미지 3,000개
이미지: 토큰화
이미지의 토큰은 다음과 같이 계산됩니다.
- Gemini 1.0 Pro Vision: 각 이미지는 258개의 토큰을 차지합니다.
- Gemini 1.5 Flash 및
Gemini 1.5 Pro:
<ph type="x-smartling-placeholder">
- </ph>
- 이미지의 가로세로 크기가 둘 다 384픽셀 이하인 경우 258개의 토큰이 사용됩니다.
- 이미지의 한 크기가 384픽셀보다 큰 경우 이미지가 타일로 잘립니다. 각 타일 크기는 기본적으로 가장 작은 1.5로 나눈 값입니다. 필요한 경우 각 타일은 256픽셀보다 작지 않고 768픽셀보다 크지 않도록 조정됩니다. 그런 다음 각 타일의 크기가 768x768로 조정되고 258개의 토큰이 사용됩니다.
이미지: 권장사항
이미지를 사용할 때 최상의 결과를 얻으려면 다음 권장사항과 정보를 사용하세요.
- 이미지에서 텍스트를 감지하려면 단일 이미지가 포함된 프롬프트를 사용하면 여러 이미지가 포함된 프롬프트보다 더 나은 결과를 얻을 수 있습니다.
- 프롬프트에 단일 이미지가 포함된 경우 요청에서 텍스트 프롬프트 앞에 이미지를 배치합니다.
- 프롬프트에 여러 이미지가 포함되어 있고 이를 참조하려는 경우
모델이 이를 모델 응답에서 참조하게 할 수 있습니다
각 이미지에 이미지 앞에 색인을 제공하는 것이 도움이 될 수 있습니다. 사용
또는a
b
c
생성합니다. 다음은 프롬프트에서 색인이 생성된 이미지를 사용하는 예시입니다.image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - 더 높은 해상도의 이미지를 사용하세요. 더 나은 결과를 얻을 수 있습니다.
- 프롬프트에 몇 가지 예시를 포함하세요.
- 이미지를 적절한 방향으로 회전한 후에 프롬프트에 추가하세요.
- 흐릿한 이미지는 사용하지 마세요.
이미지: 제한사항
Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.
- 콘텐츠 검토: 모델이 답변을 제공하지 않습니다. Google의 안전 정책을 위반하는 이미지에 적용됩니다.
- 공간 추론: 모델이 위치를 정확하게 찾을 수 없습니다. 객체를 생성할 수 있습니다 대략적인 객체 수만 반환할 수 있습니다.
- 의료용 사용: 이 모델은 해석에 적합하지 않습니다. 의료 영상 (예: 엑스레이 및 CT 스캔) 또는 의료 제공 있습니다.
- 사람 인식: 이 모델은 이미지에서 유명인이 아닌 사람을 식별합니다.
- 정확성: 모델이 할루시네이션을 일으키거나 실수를 할 수 있습니다. 저품질, 회전된 이미지 또는 매우 저해상도 이미지를 해석하는 경우 이 모델은 이미지 문서에서 필기 입력 텍스트를 해석할 때도 할루시네이션이 발생할 수 있습니다.
동영상: 요구사항, 권장사항, 제한사항
동영상: 요구사항
이 섹션에서는 지원되는 MIME 유형 및 있습니다.
지원되는 MIME 유형
Gemini 멀티모달 모델은 다음과 같은 동영상 MIME 유형을 지원합니다.
동영상 MIME 유형 | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV - video/x-flv |
|||
MOV - video/quicktime |
|||
MPEG - video/mpeg |
|||
MPEGPS - video/mpegps |
|||
MPG - video/mpg |
|||
MP4 - video/mp4 |
|||
WEBM - video/webm |
|||
WMV - video/wmv |
|||
3GPP - video/3gpp |
요청당 한도
프롬프트 요청에 허용되는 최대 동영상 파일 수는 다음과 같습니다.
- Gemini 1.0 Pro Vision: 동영상 파일 1개
- Gemini 1.5 Flash 및 Gemini 1.5 Pro: 동영상 파일 10개
동영상: 토큰화
동영상의 토큰 계산 방법은 다음과 같습니다.
- 모든 Gemini 멀티모달 모델: 동영상은
1 fps(초당 프레임 수) fh로 샘플링됩니다. 각 동영상 프레임은 258개의 토큰을 차지합니다. - Gemini 1.5 Flash 및 Gemini 1.5 Pro: 오디오 트랙은 동영상 프레임으로 인코딩됩니다. 오디오 트랙도
1초 트렁크 로 분할되며 각 트렁크는 32개의 토큰을 차지합니다. 동영상 프레임 및 오디오 토큰은 타임스탬프와 함께 인터리브 처리됩니다. 타임스탬프는 7개의 토큰으로 표시됩니다.
동영상: 권장사항
동영상을 사용할 때 최상의 결과를 얻으려면 다음 권장사항과 정보를 사용하세요.
- 프롬프트에 동영상 하나가 포함된 경우 텍스트 프롬프트 앞에 동영상을 배치하세요.
- 오디오가 있는 동영상에서 타임스탬프 현지화가 필요한 경우 모델에
MM:SS
형식으로 타임스탬프를 생성하도록 요청합니다. 여기서 처음 두 자리는 분을, 마지막 두 자리는 초를 나타냅니다. 타임스탬프를 묻는 질문에는 동일한 형식을 사용합니다. Gemini 1.0 Pro Vision을 사용하는 경우 다음 사항에 유의하세요.
- 프롬프트당 동영상을 두 개 이상 사용하지 않습니다.
- 모델은 동영상의 처음 2분 동안의 정보만 처리합니다.
- 모델은 동영상의 비연속 이미지 프레임으로 동영상을 처리합니다. 오디오는 포함되지 않습니다. 모델에서 동영상의 일부 내용이 누락되었다면 모델이 동영상 내용을 더 많이 캡처하도록 동영상 길이를 줄여보세요.
- 모델이 오디오 정보 또는 타임스탬프 메타데이터를 처리하지 않습니다. 따라서 자막 오디오 같은 오디오 입력이나 속도, 리듬과 같은 시간 관련 정보가 필요한 사용 사례에서는 모델이 제대로 작동하지 않을 수 있습니다.
동영상: 제한사항
Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.
- 콘텐츠 검토: 이 모델은 Google 안전 정책을 위반하는 동영상에 대해 답변을 제공하지 않습니다.
- 비음성 소리 인식: 오디오를 지원하는 모델에서 음성이 아닌 소리를 인식하는 오류가 발생할 수 있습니다.
- 고속 모션:
1 fps(초당 프레임 수) 로 고정된 샘플링 레이트로 인해 모델이 동영상의 고속 모션을 인식할 때 오류가 발생할 수 있습니다. - 스크립트 구두점: (Gemini 1.5 Flash를 사용하는 경우) 모델이 는 구두점을 포함하지 않은 스크립트를 반환합니다.
오디오: 요구사항 및 제한사항
오디오: 요구사항
이 섹션에서는 지원되는 MIME 유형 및 오디오입니다.
지원되는 MIME 유형
Gemini 멀티모달 모델은 다음 오디오 MIME 유형을 지원합니다.
오디오 MIME 유형 | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
요청당 한도
프롬프트 요청에는 최대
오디오: 제한사항
Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.
- 비음성 소리 인식: 오디오를 지원하는 모델에서 음성이 아닌 소리를 인식하는 오류가 발생할 수 있습니다.
- 오디오 전용 타임스탬프: 오디오 전용 파일의 타임스탬프를 정확하게 생성하려면
generation_config
에서audio_timestamp
매개변수를 구성해야 합니다. - 텍스트 변환 구두점: (Gemini 1.5 Flash를 사용하는 경우) 모델에서 구두점이 포함되지 않은 텍스트 변환을 반환할 수 있습니다.
문서 (예: PDF): 요구사항, 권장사항, 제한사항
문서: 요구사항
이 섹션에서는 지원되는 MIME 유형 및 문서 (예: PDF)
지원되는 MIME 유형
Gemini 멀티모달 모델은 다음과 같은 문서 MIME 유형을 지원합니다.
문서 MIME 유형 | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF - application/pdf |
|||
텍스트 - text/plain |
요청당 한도
PDF는 이미지로 취급되므로 PDF의 한 페이지는 하나의 이미지로 취급됩니다. 프롬프트에서 허용되는 페이지 수는 모델이 지원할 수 있는 이미지 수로 제한됩니다.
- Gemini 1.0 Pro Vision: 16페이지
- Gemini 1.5 Pro 및 Gemini 1.5 Flash: 1,000페이지
문서: 토큰화
PDF 토큰화
PDF는 이미지로 취급되므로 PDF의 각 페이지가 이미지와 동일한 방법으로 토큰화됩니다.
또한 PDF 비용은 Gemini 이미지 가격 책정을 따릅니다. 예를 들어 Gemini API 호출에 2페이지 PDF를 포함하면 두 개의 이미지 처리에 대한 입력 수수료가 발생합니다.
일반 텍스트 토큰화
일반 텍스트 문서는 텍스트로 토큰화됩니다. 예를 들어 100단어로 된 일반 텍스트를 포함하는 경우 100단어를 처리하는 입력 수수료가 부과됩니다.
문서: 권장사항
PDF를 사용할 때 최상의 결과를 얻으려면 다음 권장사항과 정보를 사용하세요.
- 프롬프트에 단일 PDF가 포함된 경우 요청에서 텍스트 프롬프트 앞에 PDF를 배치합니다.
- 문서가 긴 경우 여러 PDF로 분할하여 처리하는 것이 좋습니다.
- 스캔한 이미지에 텍스트를 사용하는 대신 텍스트로 렌더링된 텍스트로 생성된 PDF를 사용합니다. 이 형식은 머신이 텍스트를 읽을 수 있으므로 스캔한 이미지 PDF에 비해 모델이 더 쉽게 수정, 검색, 조작할 수 있습니다. 따라서 계약서와 같이 텍스트가 많은 문서를 작업할 때 최적의 결과를 얻을 수 있습니다.
문서: 제한사항
Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.
- 공간 추론: 이 모델은 PDF에 있는 텍스트 또는 객체 수를 정확하게 맞히지 못합니다. 대략적인 객체 수만 반환할 수 있습니다.
- 정확성: 이 모델은 PDF 문서에서 필기 텍스를 해석할 때 할루시네이션이 발생할 수 있습니다.