벡터 저장소 만들기

아티클
04/05/2024

Azure AI 검색에서 벡터 저장소에는 벡터 필드와 비 벡터 필드를 정의하는 인덱스 스키마, 포함 공간을 만드는 알고리즘에 대한 벡터 구성, 쿼리 요청에 사용되는 벡터 필드 정의에 대한 설정이 있습니다. 인덱스 만들기 API는 벡터 저장소를 만듭니다.

다음 단계를 사용하여 벡터 데이터를 인덱싱합니다.

인덱싱 및 검색 알고리즘을 지정하는 하나 이상의 벡터 구성을 사용하여 스키마 정의
하나 이상의 벡터 필드 추가
사전 벡터화된 데이터를 별도의 단계로 로드 또는 인덱싱 중에 통합 벡터화(미리 보기)를 데이터 청크 및 인코딩에 사용

이 문서는 일반 공급되지만 미리 보기가 아닌 벡터 검색 버전에 적용됩니다. 이 버전에서는 애플리케이션 코드에서 청크 및 인코딩을 위해 외부 리소스를 호출한다고 가정합니다.

참고 항목

2023-07-01-preview에서 마이그레이션 지침을 찾고 있나요? REST API 업그레이드를 참조하세요.

필수 조건

모든 지역 및 모든 계층의 Azure AI 검색. 대부분의 기존 서비스는 벡터 검색을 지원합니다. 2019년 1월 이전에 만든 서비스의 경우 벡터 검색을 지원할 수 없는 작은 하위 집합이 있습니다. 벡터 필드를 포함하는 인덱스가 만들어지거나 업데이트되지 않는 경우 이는 표시기입니다. 이 상황에서는 새 서비스를 만들어야 합니다.
원본 문서의 기존 벡터 포함. Azure AI 검색은 일반 공급되는 Azure SDK 및 REST API 버전에서 벡터를 생성하지 않습니다. Azure OpenAI 포함 모델을 권장하지만 벡터화에는 모든 모델을 사용할 수 있습니다. 자세한 내용은 포함 생성을 참조하세요.
포함을 만드는 데 사용되는 모델의 차원 제한과 유사성이 계산되는 방법을 알아야 합니다. Azure OpenAI에서 text-embedding-ada-002의 경우 숫자 벡터의 길이는 1536입니다. 유사성은 cosine을 사용하여 계산됩니다. 유효한 값은 2에서 3072까지입니다.
인덱스 만들기에 익숙해야 합니다. 스키마에는 문서 키에 대한 필드, 검색하거나 필터링하려는 기타 필드, 인덱싱 및 쿼리 중에 필요한 동작에 대한 기타 구성이 포함되어야 합니다.

인덱싱을 위한 문서 준비

인덱싱하기 전에 벡터 및 비 벡터 데이터 필드를 포함하는 문서 페이로드를 어셈블합니다. 문서 구조는 인덱스 스키마를 준수해야 합니다.

문서는 다음과 같아야 합니다.

각 문서를 고유하게 식별하는 필드 또는 메타데이터 속성을 제공합니다. 모든 검색 인덱스에는 문서 키가 필요합니다. 문서 키 요구 사항을 충족하려면 인덱스에서 해당 문서를 고유하게 식별할 수 있는 하나의 필드 또는 속성이 원본 문서에 있어야 합니다. 이 원본 필드는 검색 인덱스에서 Edm.String 및 key=true 형식의 인덱스 필드에 매핑해야 합니다.
벡터 데이터(단정밀도 부동 소수점 숫자 배열)를 원본 필드에 제공합니다.

벡터 필드는 포함 모델에서 생성된 숫자 데이터를 포함하며, 필드당 하나의 포함이 있습니다. 텍스트 문서의 경우 text-embedding-ada-002, 이미지의 경우 Image Retrieval REST API와 같은 Azure OpenAI의 포함 모델을 사용하는 것이 좋습니다. 인덱스 최상위 벡터 필드만 지원됩니다. 벡터 하위 필드는 현재 지원되지 않습니다.
전체 텍스트 검색 또는 의미 체계 순위를 쿼리 응답 및 동일한 요청에 포함하는 하이브리드 쿼리 시나리오에 대해 사람이 읽을 수 있는 영숫자 콘텐츠를 다른 필드에 제공합니다.

검색 인덱스는 지원하려는 모든 쿼리 시나리오에 대한 필드와 콘텐츠를 포함해야 합니다. 제품 이름, 버전, 메타데이터 또는 주소를 검색하거나 필터링한다고 가정합니다. 이 경우 유사성 검색은 특히 유용하지 않습니다. 키워드 검색, 지리적 검색 또는 필터를 선택하는 것이 좋습니다. 벡터 및 비 벡터 데이터의 포괄적인 필드 컬렉션을 포함하는 검색 인덱스는 최대 유연성을 쿼리 생성 및 응답 구성에 제공합니다.

벡터 필드와 비 벡터 필드를 포함하는 문서 페이로드의 간단한 예제는 이 문서의 벡터 데이터 로드 섹션에 있습니다.

벡터 검색 구성 추가

벡터 구성은 인덱싱하는 동안 사용되는 벡터 검색 알고리즘과 매개 변수를 지정하여 벡터 노드 간에 "가장 인접한 항목" 정보를 만듭니다.

HNSW(Hierarchical Navigable Small World)
exhaustive KNN

필드에서 HNSW를 선택하면 쿼리 시 exhaustive KNN을 선택할 수 있습니다. 그러나 다른 방향은 작동하지 않습니다. exhaustive를 선택하면 근사 검색을 사용하도록 설정하는 추가 데이터 구조가 없으므로 나중에 HNSW 검색을 요청할 수 없습니다.

미리 보기에서 안정적인 버전으로의 마이그레이션 지침을 찾고 있나요? 단계는 REST API 업그레이드를 참조하세요.

2023-11-01 REST API 버전은 다음과 같은 벡터 구성을 지원합니다.

vectorSearch 알고리즘, hnsw 및 exhaustiveKnn 가장 인접한 항목(인덱싱 및 채점 매개 변수 포함)
vectorProfiles(여러 알고리즘 구성 조합의 경우)

콘텐츠 벡터화 전략이 있어야 합니다. 안정적인 버전은 기본 제공 포함에 대한 벡터라이저를 제공하지 않습니다.

인덱스 만들기 또는 업데이트 API를 사용하여 인덱스를 만듭니다.
포함 공간을 만드는 데 사용되는 검색 알고리즘을 지정하는 vectorSearch 섹션을 인덱스에 추가합니다.
```
 "vectorSearch": {
     "algorithms": [
         {
             "name": "my-hnsw-config-1",
             "kind": "hnsw",
             "hnswParameters": {
                 "m": 4,
                 "efConstruction": 400,
                 "efSearch": 500,
                 "metric": "cosine"
             }
         },
         {
             "name": "my-hnsw-config-2",
             "kind": "hnsw",
             "hnswParameters": {
                 "m": 8,
                 "efConstruction": 800,
                 "efSearch": 800,
                 "metric": "cosine"
             }
         },
         {
             "name": "my-eknn-config",
             "kind": "exhaustiveKnn",
             "exhaustiveKnnParameters": {
                 "metric": "cosine"
             }
         }

     ],
     "profiles": [
       {
         "name": "my-default-vector-profile",
         "algorithm": "my-hnsw-config-2"
       }
     ]
 }
```
주요 정보:
- 구성의 이름입니다. 이름은 인덱스 내에서 고유해야 합니다.
- profiles는 더 풍부한 정의를 수용하는 추상화 계층을 추가합니다. 프로필은 vectorSearch에 정의된 다음, 각 벡터 필드에서 이름으로 참조됩니다.
- "hnsw" 및 "exhaustiveKnn"은 인덱싱하는 동안 벡터 콘텐츠를 구성하는 데 사용되는 ANN(가장 인접한 항목 근사화) 알고리즘입니다.
- "m"(양방향 링크 수) 기본값은 4입니다. 범위는 4~10입니다. 값이 낮을수록 결과에서 노이즈가 줄어듭니다.
- "efConstruction" 기본값은 400입니다. 범위는 100~1,000입니다. 인덱싱하는 동안 사용되는 가장 인접한 항목의 수입니다.
- "efSearch" 기본값은 500입니다. 범위는 100~1,000입니다. 검색하는 동안 사용되는 가장 인접한 항목의 수입니다.
- "metric"은 Azure OpenAI를 사용하는 경우 "cosine"이어야 하고, 그렇지 않은 경우 사용하는 포함 모델과 연결된 유사성 메트릭을 사용해야 합니다. 지원되는 값은 cosine, dotProduct, euclidean입니다.

2023-10-01-Preview REST API 버전은 외부 및 내부 벡터화를 지원합니다. 이 섹션에서는 외부 벡터화 전략을 가정합니다. 이 API는 다음을 지원합니다.

vectorSearch 알고리즘, hnsw 및 exhaustiveKnn 가장 인접한 항목(인덱싱 및 채점 매개 변수 포함)
vectorProfiles(여러 알고리즘 구성 조합의 경우)

인덱스 만들기 또는 업데이트 미리 보기 REST API를 사용하여 인덱스를 만듭니다.
포함 공간을 만드는 데 사용되는 검색 알고리즘을 지정하는 vectorSearch 섹션을 인덱스에 추가합니다.
```
 "vectorSearch": {
     "algorithms": [
         {
             "name": "my-hnsw-config-1",
             "kind": "hnsw",
             "hnswParameters": {
                 "m": 4,
                 "efConstruction": 400,
                 "efSearch": 500,
                 "metric": "cosine"
             }
         },
         {
             "name": "my-hnsw-config-2",
             "kind": "hnsw",
             "hnswParameters": {
                 "m": 8,
                 "efConstruction": 800,
                 "efSearch": 800,
                 "metric": "cosine"
             }
         },
         {
             "name": "my-eknn-config",
             "kind": "exhaustiveKnn",
             "exhaustiveKnnParameters": {
                 "metric": "cosine"
             }
         }

     ],
     "profiles": [
       {
         "name": "my-default-vector-profile",
         "algorithm": "my-hnsw-config-2"
       }
     ]
 }
```
주요 정보:
- 구성의 이름입니다. 이름은 인덱스 내에서 고유해야 합니다.
- profiles는 이 미리 보기의 새로운 기능입니다. 더 풍부한 정의를 수용하는 추상화 계층을 추가합니다. 프로필은 vectorSearch에 정의된 다음, 각 벡터 필드에서 속성으로 정의됩니다.
- hnsw 및 "exhaustiveKnn"은 인덱싱하는 동안 벡터 콘텐츠를 구성하는 데 사용되는 ANN(가장 인접한 항목 근사화) 알고리즘입니다.
- m(양방향 링크 수) 기본값은 4입니다. 범위는 4~10입니다. 값이 낮을수록 결과에서 노이즈가 줄어듭니다.
- efConstruction 기본값은 400입니다. 범위는 100~1,000입니다. 인덱싱하는 동안 사용되는 가장 인접한 항목의 수입니다.
- efSearch 기본값은 500입니다. 범위는 100~1,000입니다. 검색하는 동안 사용되는 가장 인접한 항목의 수입니다.
- metric은 Azure OpenAI를 사용하는 경우 "cosine"이어야 하고, 그렇지 않은 경우 사용하는 포함 모델과 연결된 유사성 메트릭을 사용해야 합니다. 지원되는 값은 cosine, dotProduct, euclidean입니다.

2023-07-01-Preview REST API 버전은 벡터 시나리오를 지원하는 최초의 REST API 버전이었습니다. 이 버전에는 다음이 있습니다.

vectorSearch HNSW 알고리즘 지정
hnsw 벡터 콘텐츠 인덱싱을 위한 가장 인접한 항목 알고리즘

인덱스 만들기 또는 업데이트 REST API를 사용하여 인덱스를 만듭니다.
포함 공간을 만드는 데 사용되는 검색 알고리즘을 지정하는 vectorSearch 섹션을 인덱스에 추가합니다.
```
 "vectorSearch": {
     "algorithmConfigurations": [
         {
             "name": "vectorConfig",
             "kind": "hnsw",
             "hnswParameters": {
                 "m": 4,
                 "efConstruction": 400,
                 "efSearch": 500,
                 "metric": "cosine"
             }
         }
     ]
 }
```
주요 정보:
- 구성의 이름입니다. 이름은 인덱스 내에서 고유해야 합니다.
- hnsw은 인덱싱하는 동안 근접 그래프를 만드는 데 사용되는 ANN(가장 인접한 항목 근사화) 알고리즘입니다. 이 API 버전에서는 HNSW(Hierarchical Navigable Small World)만 지원됩니다.
- m(양방향 링크 수) 기본값은 4입니다. 범위는 4~10입니다. 값이 낮을수록 결과에서 노이즈가 줄어듭니다.
- efConstruction 기본값은 400입니다. 범위는 100~1,000입니다. 인덱싱하는 동안 사용되는 가장 인접한 항목의 수입니다.
- efSearch 기본값은 500입니다. 범위는 100~1,000입니다. 검색하는 동안 사용되는 가장 인접한 항목의 수입니다.
- metric은 Azure OpenAI를 사용하는 경우 "cosine"이어야 하고, 그렇지 않은 경우 사용하는 포함 모델과 연결된 유사성 메트릭을 사용해야 합니다. 지원되는 값은 cosine, dotProduct, euclidean입니다.

필드 컬렉션에 벡터 필드 추가

필드 컬렉션은 문서 키 필드, 벡터 필드 및 하이브리드 검색 시나리오에 필요한 다른 모든 필드를 포함해야 합니다.

벡터 필드는 Collection(Edm.Single) 형식과 단정밀도 부동 소수점 값입니다. 이 형식의 필드에는 dimensions 속성도 있으며 벡터 구성을 지정합니다.

일반적으로 사용 가능한 기능만 원하는 경우 이 버전을 사용합니다.

인덱스를 만들려면 인덱스 만들기 또는 업데이트를 사용합니다.
다음 특성을 사용하여 벡터 필드를 정의합니다. 필드당 하나의 생성된 포함을 저장할 수 있습니다. 각 벡터 필드는 다음과 같습니다.
- type 해야 Collection(Edm.Single)합니다.
- dimensions는 포함 모델에서 생성된 차원의 수입니다. text-embedding-ada-002의 경우 1536입니다.
- vectorSearchProfile은 인덱스의 다른 위치에 정의된 프로필의 이름입니다.
- searchable은 true여야 합니다.
- retrievable은 true 또는 false일 수 있습니다. true는 원시 벡터(1,536개)를 일반 텍스트로 반환하고 스토리지 공간을 소비합니다. 벡터 결과를 다운스트림 앱에 전달하는 경우 true로 설정합니다.
- filterable, facetable, sortable은 false여야 합니다.
벡터 쿼리에서 사전 필터링 또는 사후 필터링을 호출하려면 filterable이 true로 설정된 "title"과 같은 필터링 가능한 비 벡터 필드를 컬렉션에 추가합니다.

인덱싱하는 텍스트 콘텐츠의 내용과 구조를 정의하는 다른 필드를 추가합니다. 최소한 문서 키가 필요합니다.

쿼리 또는 응답에 유용한 필드도 추가해야 합니다. 다음 예제에서는 벡터와 동일한 제목 및 콘텐츠("titleVector", "contentVector")에 대한 벡터 필드를 보여줍니다. 검색 결과에서 정렬, 필터링 및 읽기에 유용한 동일한 텍스트 콘텐츠에 대한 필드("title", "title")도 제공합니다.

다음 예제에서는 필드 컬렉션을 보여줍니다.

PUT https://my-search-service.search.windows.net/indexes/my-index?api-version=2023-11-01&allowIndexDowntime=true
Content-Type: application/json
api-key: {{admin-api-key}}
{
    "name": "{{index-name}}",
    "fields": [
        {
            "name": "id",
            "type": "Edm.String",
            "key": true,
            "filterable": true
        },
        {
            "name": "title",
            "type": "Edm.String",
            "searchable": true,
            "filterable": true,
            "sortable": true,
            "retrievable": true
        },
        {
            "name": "titleVector",
            "type": "Collection(Edm.Single)",
            "searchable": true,
            "retrievable": true,
            "dimensions": 1536,
            "vectorSearchProfile": "my-default-vector-profile"
        },
        {
            "name": "content",
            "type": "Edm.String",
            "searchable": true,
            "retrievable": true
        },
        {
            "name": "contentVector",
            "type": "Collection(Edm.Single)",
            "searchable": true,
            "retrievable": true,
            "dimensions": 1536,
            "vectorSearchProfile": "my-default-vector-profile"
        }
    ],
    "vectorSearch": {
        "algorithms": [
            {
                "name": "my-hnsw-config-1",
                "kind": "hnsw",
                "hnswParameters": {
                    "m": 4,
                    "efConstruction": 400,
                    "efSearch": 500,
                    "metric": "cosine"
                }
            }
        ],
        "profiles": [
            {
                "name": "my-default-vector-profile",
                "algorithm": "my-hnsw-config-1"
            }
        ]
    }
}

다음 REST API 예제에서 "title" 및 "content"는 전체 텍스트 검색 및 의미 체계 순위에 사용되는 텍스트 콘텐츠를 포함하고, "titleVector" 및 "contentVector"는 벡터 데이터를 포함합니다.

인덱스 만들기 또는 업데이트 미리 보기 REST API를 사용하여 인덱스를 만듭니다.
벡터 필드를 필드 컬렉션에 추가합니다. 문서 필드당 하나의 생성된 포함을 저장할 수 있습니다. 각 벡터 필드는 다음과 같습니다.
- type 해야 Collection(Edm.Single)합니다.
- dimensions는 포함 모델에서 생성된 차원의 수입니다. text-embedding-ada-002의 경우 1536입니다.
- vectorSearchProfile은 인덱스의 다른 위치에 정의된 프로필의 이름입니다.
- searchable은 true여야 합니다.
- retrievable은 true 또는 false일 수 있습니다. true는 원시 벡터(1,536개)를 일반 텍스트로 반환하고 스토리지 공간을 소비합니다. 벡터 결과를 다운스트림 앱에 전달하는 경우 true로 설정합니다.
- filterable, facetable, sortable은 false여야 합니다.
[벡터 쿼리](vector-search-how-to-query.md)에서 사전 필터링 또는 사후 필터링을 호출하려면 filterable이 true로 설정된 "title"과 같은 필터링 가능한 비 벡터 필드를 컬렉션에 추가합니다.

인덱싱하는 텍스트 콘텐츠의 내용과 구조를 정의하는 다른 필드를 추가합니다. 최소한 문서 키가 필요합니다.

다음 예제에서는 필드 컬렉션을 보여줍니다.

PUT https://my-search-service.search.windows.net/indexes/my-index?api-version=2023-10-01-Preview&allowIndexDowntime=true
Content-Type: application/json
api-key: {{admin-api-key}}
{
    "name": "{{index-name}}",
    "fields": [
        {
            "name": "id",
            "type": "Edm.String",
            "key": true,
            "filterable": true
        },
        {
            "name": "title",
            "type": "Edm.String",
            "searchable": true,
            "filterable": true,
            "sortable": true,
            "retrievable": true
        },
        {
            "name": "titleVector",
            "type": "Collection(Edm.Single)",
            "searchable": true,
            "retrievable": true,
            "dimensions": 1536,
            "vectorSearchProfile": "my-default-vector-profile"
        },
        {
            "name": "content",
            "type": "Edm.String",
            "searchable": true,
            "retrievable": true
        },
        {
            "name": "contentVector",
            "type": "Collection(Edm.Single)",
            "searchable": true,
            "retrievable": true,
            "dimensions": 1536,
            "vectorSearchProfile": "my-default-vector-profile"
        }
    ],
    "vectorSearch": {
        "algorithms": [
            {
                "name": "my-hnsw-config-1",
                "kind": "hnsw",
                "hnswParameters": {
                    "m": 4,
                    "efConstruction": 400,
                    "efSearch": 500,
                    "metric": "cosine"
                }
            }
        ],
        "profiles": [
            {
                "name": "my-default-vector-profile",
                "algorithm": "my-hnsw-config-1"
            }
        ]
    }
}

Important

이 버전에 대한 벡터 필드 정의는 이후 버전에서는 더 이상 사용되지 않습니다. 2023-11-01 또는 2023-10-01-Preview로 마이그레이션하는 것이 좋습니다. vectorSearchConfiguration를 vectorSearchProfile로 바꿉니다.

2023-07-01-Preview REST API 버전은 벡터 시나리오를 지원하는 최초의 REST API 버전이었습니다.

인덱스 만들기 또는 업데이트 미리 보기 REST API를 사용하여 인덱스를 만듭니다.
벡터 필드를 필드 컬렉션에 추가합니다. 문서 필드당 하나의 생성된 포함을 저장할 수 있습니다. 각 벡터 필드는 다음과 같습니다.
- Collection(Edm.Single) 데이터 형식을 할당합니다.
- 벡터 검색 알고리즘 구성의 이름을 제공합니다.
- 포함 모델에서 생성된 차원의 수를 제공합니다.
- 특성을 다음과 같이 설정합니다.
  - "searchable"은 "true"여야 합니다.
  - "retrievable"을 "true"로 설정하면 원시 벡터를 표시할 수 있지만(예: 확인 단계로) 이렇게 하면 스토리지가 증가합니다. 원시 벡터를 반환할 필요가 없는 경우 "false"로 설정합니다. 쿼리에 대해 벡터를 반환할 필요는 없지만 벡터 결과를 다운스트림 앱에 전달하는 경우 "retrievable"을 "true"로 설정합니다.
  - "filterable", "facetable", "sortable" 특성은 "false"여야 합니다. 이러한 동작은 벡터 필드의 컨텍스트 내에서 적용되지 않고 요청이 실패하므로 "true"로 설정하지 마세요.

인덱싱하는 텍스트 콘텐츠의 내용과 구조를 정의하는 다른 필드를 추가합니다. 최소한 문서 키가 필요합니다.

설명된 요소가 포함된 인덱스 정의는 다음과 같습니다.

PUT https://my-search-service.search.windows.net/indexes/my-index?api-version=2023-07-01-Preview&allowIndexDowntime=true
Content-Type: application/json
api-key: {{admin-api-key}}
{
    "name": "{{index-name}}",
    "fields": [
        {
            "name": "id",
            "type": "Edm.String",
            "key": true,
            "filterable": true
        },
        {
            "name": "title",
            "type": "Edm.String",
            "searchable": true,
            "filterable": true,
            "sortable": true,
            "retrievable": true
        },
        {
            "name": "titleVector",
            "type": "Collection(Edm.Single)",
            "searchable": true,
            "retrievable": true,
            "dimensions": 1536,
            "vectorSearchConfiguration": "vectorConfig"
        },
        {
            "name": "content",
            "type": "Edm.String",
            "searchable": true,
            "retrievable": true
        },
        {
            "name": "contentVector",
            "type": "Collection(Edm.Single)",
            "searchable": true,
            "retrievable": true,
            "dimensions": 1536,
            "vectorSearchConfiguration": "vectorConfig"
        }
    ],
    "vectorSearch": {
        "algorithmConfigurations": [
            {
                "name": "vectorConfig",
                "kind": "hnsw",
                "hnswParameters": {
                    "m": 4,
                    "efConstruction": 400,
                    "efSearch": 500,
                    "metric": "cosine"
                }
            }
        ]
    }
}

Azure Portal은 2023-10-01-Preview 동작을 지원합니다.

Azure Portal에서 인덱스 디자이너를 사용하여 벡터 필드 정의를 추가합니다. 인덱스에 벡터 구성이 없는 경우 첫 번째 벡터 필드를 인덱스에 추가하면 벡터 구성을 만들라는 메시지가 표시됩니다.

필드를 인덱스에 추가할 수 있지만 벡터 데이터를 사용하여 필드를 로드하는 포털(데이터 가져오기 마법사)은 지원되지 않습니다. 대신 REST API 또는 SDK를 데이터 가져오기에 사용합니다.

Azure Portal에 로그인하고 브라우저에서 검색 서비스 페이지를 엽니다.
왼쪽 탐색 창에서 검색 관리>인덱스를 차례로 선택합니다.
+ 인덱스 추가를 선택하고 인덱스 이름을 지정합니다.
필드 추가를 선택합니다.

주요 정보:
- 필드 이름을 지정합니다(공백 없음).
- Collection(Edm.Single) 형식을 선택합니다.
- 쿼리를 통해 검색 결과에서 벡터 데이터가 반환되도록 하려면 "Retrievable"을 선택합니다. 일치 항목에 대한 프록시로 반환할 수 있는 사람이 읽을 수 있는 콘텐츠가 포함된 다른 필드가 있는 경우 공간을 절약하기 위해 "Retrievable"을 false로 설정해야 합니다.
- "Searchable"은 벡터 필드에 필수적이며 변경할 수 없습니다.
- "차원"은 모델에서 반환한 벡터의 길이입니다. 이 값을 설정하여 text-embeddding-ada-002에 대해 1536을 지정합니다. 여기서 제공하는 입력 텍스트는 1,536개 차원을 사용하여 숫자로 설명됩니다.
유사성 검색에 사용되는 벡터 구성을 선택하거나 만듭니다. 인덱스에 벡터 구성이 없는 경우 만들기를 선택해야 합니다.

주요 정보:
- 구성 이름을 지정합니다. 이름은 인덱스 내에서 고유해야 합니다.
- "hnsw"는 인덱싱하는 동안 근접 그래프를 만드는 데 사용되는 ANN(가장 인접한 항목 근사화) 알고리즘입니다. 현재 HNSW(Hierarchical Navigable Small World)만 지원됩니다.
- "양방향 링크 수" 기본값은 4입니다. 범위는 4~10입니다. 값이 낮을수록 결과에서 노이즈가 줄어듭니다.
- "efConstruction" 기본값은 400입니다. 범위는 100~1,000입니다. 인덱싱하는 동안 사용되는 가장 인접한 항목의 수입니다.
- "efSearch 기본값은 500입니다. 범위는 100~1,000입니다. 검색하는 동안 사용되는 가장 인접한 항목의 수입니다.
- "유사성 메트릭"은 Azure OpenAI를 사용하는 경우 "cosine"이어야 하고, 그렇지 않은 경우 사용하는 포함 모델과 연결된 유사성 메트릭을 사용해야 합니다. 지원되는 값은 cosine, dotProduct, euclidean입니다.
HNSW 매개 변수에 익숙한 경우 결과에서 반환할 가장 인접한 항목의 "k" 수를 설정하는 방법에 대해 궁금할 수 있습니다. Azure AI 검색에서 해당 값은 쿼리 요청에 설정됩니다.
저장을 선택하여 벡터 구성과 필드 정의를 저장합니다.

인덱싱을 위한 벡터 데이터 로드

인덱싱을 위해 제공하는 콘텐츠는 인덱스 스키마를 준수해야 하며 문서 키에 대한 고유한 문자열 값을 포함해야 합니다. 사전 벡터화된 데이터는 영숫자 콘텐츠가 포함된 다른 필드와 공존할 수 있는 하나 이상의 벡터 필드에 로드됩니다.

밀어넣기 또는 끌어오기 방법론을 데이터 수집에 사용할 수 있습니다.

밀어넣기 API
끌어오기 API(인덱스 생성기)

인덱스 문서(2023-11-01), 인덱스 문서(2023-10-01-Preview) 또는 문서 추가, 업데이트 또는 삭제(2023- 07-01-Preview)를 사용하여 벡터 데이터가 포함된 문서를 밀어넣습니다.

POST https://{{search-service-name}}.search.windows.net/indexes/{{index-name}}/docs/index?api-version=2023-11-01
Content-Type: application/json
api-key: {{admin-api-key}}
{
    "value": [
        {
            "id": "1",
            "title": "Azure App Service",
            "content": "Azure App Service is a fully managed platform for building, deploying, and scaling web apps. You can host web apps, mobile app backends, and RESTful APIs. It supports a variety of programming languages and frameworks, such as .NET, Java, Node.js, Python, and PHP. The service offers built-in auto-scaling and load balancing capabilities. It also provides integration with other Azure services, such as Azure DevOps, GitHub, and Bitbucket.",
            "category": "Web",
            "titleVector": [
                -0.02250031754374504,
                 . . . 
                        ],
            "contentVector": [
                -0.024740582332015038,
                 . . .
            ],
            "@search.action": "upload"
        },
        {
            "id": "2",
            "title": "Azure Functions",
            "content": "Azure Functions is a serverless compute service that enables you to run code on-demand without having to manage infrastructure. It allows you to build and deploy event-driven applications that automatically scale with your workload. Functions support various languages, including C#, F#, Node.js, Python, and Java. It offers a variety of triggers and bindings to integrate with other Azure services and external services. You only pay for the compute time you consume.",
            "category": "Compute",
            "titleVector": [
                -0.020159931853413582,
                . . .
            ],
            "contentVector": [
                -0.02780858241021633,
                 . . .
            ],
            "@search.action": "upload"
        }
        . . .
    ]
}

인덱서는 벡터 필드 요구 사항과 미리 보기 REST API를 충족하는 인덱스 스키마를 가정하여 원본 문서에서 벡터 필드를 검색하고 인덱싱할 수 있습니다.

데이터 원본은 벡터를 해당 데이터 원본에서 지원하는 모든 형식(예: JSON의 문자열)으로 제공합니다. 인덱서는 Collection(Edm.Single)로 입력된 필드에서 벡터를 포함하고 있다고 가정하고 해당 콘텐츠를 벡터 인덱스로 인덱싱합니다.

벡터에 대한 필드 매핑 동작 또는 변경 내용 검색은 변경되지 않습니다. 텍스트 인덱싱에 대한 동작은 벡터에도 적용됩니다.
벡터 데이터가 파일에서 원본으로 사용되는 경우 데이터 셰이프에 따라 json, jsonLines 또는 csv와 같이 기본이 아닌 parsingMode를 사용하는 것이 좋습니다.
데이터 원본의 경우 위에 언급된 parsingMode 중 하나가 포함된 Azure Blob 인덱서 및 Azure Cosmos DB for NoSQL 인덱서가 테스트되고 작동하는 것으로 확인되었습니다.

Azure SQL은 컬렉션을 기본적으로 단일 SQL 열로 저장하는 방법을 제공하지 않습니다. 현재 해결 방법이 확인되지 않았습니다.
데이터 원본의 모든 벡터 차원은 동일해야 하며 매핑되는 필드에 대한 인덱스 정의와 일치해야 합니다. 인덱서는 일치하지 않는 문서에 대해 오류를 throw합니다.

벡터 콘텐츠에 대한 인덱스 확인

유효성 검사를 위해 Azure Portal의 검색 탐색기 또는 REST API 호출을 사용하여 인덱스를 쿼리할 수 있습니다. Azure AI 검색에서는 벡터를 사람이 읽을 수 있는 텍스트로 변환할 수 없으므로 동일한 문서에서 일치 증거를 제공하는 필드를 하도록 시도합니다. 예를 들어 벡터 쿼리에서 "titleVector" 필드를 대상으로 하는 경우 검색 결과에 대해 "title"을 선택할 수 있습니다.

결과에 포함되려면 필드를 "retrievable" 특성으로 지정해야 합니다.

Azure Portal
REST API

검색 탐색기를 사용하여 인덱스를 쿼리할 수 있습니다. 검색 탐색기에는 쿼리 보기(기본값)와 JSON 보기의 두 가지 보기가 있습니다.

JSON 보기를 벡터 쿼리에 사용하고 실행하려는 벡터 쿼리의 JSON 정의를 붙여넣습니다.
인덱스에 벡터가 포함되어 있는지 빠르게 확인하려면 기본 쿼리 보기를 사용합니다. 쿼리 보기는 전체 텍스트 검색을 위한 것입니다. 벡터 쿼리에는 사용할 수 없지만 빈 검색(search=*)을 보내 콘텐츠를 확인할 수 있습니다. 벡터 필드를 포함한 모든 필드의 콘텐츠는 일반 텍스트로 반환됩니다.

다음 REST API 예제는 벡터 쿼리이지만 비 벡터 필드(title, content, category)만 반환합니다. "retrievable"로 표시된 필드만 검색 결과에서 반환될 수 있습니다.

POST https://my-search-service.search.windows.net/indexes/my-index/docs/search?api-version=2023-11-01
Content-Type: application/json
api-key: {{admin-api-key}}
{
    "vector": {
        "value": [
            -0.009154141,
            0.018708462,
            . . . 
            -0.02178128,
            -0.00086512347
        ],
        "fields": "contentVector",
        "k": 5
    },
    "select": "title, content, category"
}

벡터 저장소 업데이트

벡터 저장소를 업데이트하려면 스키마를 수정하고 필요한 경우 문서를 다시 로드하여 새 필드를 채웁다. 스키마 업데이트용 API에는 인덱스 만들기 또는 업데이트(REST), .NET용 Azure SDK의 CreateOrUpdateIndex, Python용 Azure SDK의 create_or_update_index 및 다른 Azure SDK의 유사한 메서드가 포함됩니다.

인덱스 업데이트에 대한 표준 지침은 인덱스 삭제 및 다시 빌드에 나와 있습니다.

주요 사항은 다음과 같습니다.

기존 필드를 업데이트하고 삭제하려면 삭제 및 다시 빌드가 필요한 경우가 많습니다.
그러나 다시 빌드할 필요 없이 기존 스키마를 다음과 같은 수정 사항이 적용되도록 업데이트할 수 있습니다.
- 필드 컬렉션에 새 필드를 추가합니다.
- 새 필드에 할당되었지만 이미 벡터화된 기존 필드에는 할당되지 않은 새 벡터 구성을 추가합니다.
- 기존 필드에서 "조회 가능"(값은 true 또는 false)을 변경합니다. 벡터 필드는 검색 및 조회가 가능해야 하지만 삭제 및 다시 빌드가 불가능한 상황에서 벡터 필드에 대한 액세스를 사용하지 않도록 설정하려면 조회 가능 항목을 false로 설정하면 됩니다.

다음 단계

다음 단계에서는 검색 인덱스에서 벡터 데이터를 쿼리하는 것이 좋습니다.

azure-search-Vector 리포지토리의 코드 샘플에서는 스키마 정의, 벡터화, 인덱싱 및 쿼리를 포함하는 엔드투엔드 워크플로를 보여줍니다.

Python, C# 및 JavaScript에 대한 데모 코드가 있습니다.

Share via

벡터 저장소 만들기

필수 조건

인덱싱을 위한 문서 준비

벡터 검색 구성 추가

필드 컬렉션에 벡터 필드 추가

인덱싱을 위한 벡터 데이터 로드

벡터 콘텐츠에 대한 인덱스 확인

벡터 저장소 업데이트

다음 단계

추가 리소스