Démarrage rapide : Assistant Importation et vectorisation des données (préversion)

Article
06/06/2024

Important

L’Assistant Importation et vectorisation des données est disponible en préversion publique dans les Conditions d’utilisation supplémentaires. Par défaut, il cible l’API REST 2024-05-01.

Commencez à utiliser la vectorisation intégrée (préversion) en utilisant l’Assistant Importation et vectorisation des données dans le portail Azure. Cet Assistant appelle un modèle d’incorporation spécifié par l’utilisateur pour vectoriser le contenu pendant l’indexation et pour les requêtes.

Dans cette préversion de l’Assistant :

Les données sources sont des objets blob dans Stockage Azure ou des fichiers dans OneLake, à l’aide du mode d’analyse par défaut (un document de recherche par objet blob ou par fichier).
Le schéma d’index n’est pas configurable. Les champs sources incluent content (segmentés et vectorisés), metadata_storage_name pour le titre et un metadata_storage_path pour la clé de document représenté en tant que parent_id dans l’index.
La segmentation n’est pas configurable. Les paramètres effectifs sont les suivants :
```
textSplitMode: "pages",
maximumPageLength: 2000,
pageOverlapLength: 500
```

Pour découvrir d’autres options de configuration et de source de données, essayez Python ou les API REST. Consultez l’exemple de vectorisation intégrée pour obtenir des détails.

Prérequis

Un abonnement Azure. Créez-en un gratuitement.
Recherche Azure AI, dans n’importe quelle région et n’importe quel niveau, avec deux mises en garde :

Tout d’abord, le contrôle d’accès en fonction du rôle n’est pas disponible dans le niveau gratuit. Le niveau de base et les niveaux supérieurs fournissent le contrôle d’accès en fonction du rôle, obligatoire pour l’indexation OneLake et recommandé pour les connexions aux modèles d’incorporation.

Deuxièmement, pour les incorporations multimodales avec Azure AI Vision ou les transformations liées à l’image, votre service de recherche doit se trouver dans la même région qu’Azure AI Vision. Actuellement, ces régions sont : SwedenCentral, EastUS, NorthEurope, WestEurope,WestUS, SoutheastAsia, KoreaCentral, FranceCentral, AustraliaEast, WestUS2, SwitzerlandNorth, JapanEast. Consultez la documentation pour voir la liste mise à jour.
Un modèle d’incorporation pris en charge : point de terminaison Azure OpenAI avec des déploiements, Azure AI Vision dans une région prise en charge, ou le catalogue de modèles Azure AI Studio (un hub et un projet) avec des déploiements de modèle.
Une source de données prise en charge : compte de stockage Azure ou lakehouse OneLake. Pour le Stockage Azure, utilisez un compte avec des performances standard (universel v2). Le niveau d’accès peut être chaud, sporadique et froid.
Des attributions de rôle ou des clés API sont nécessaires pour les connexions aux modèles d’incorporation et aux sources de données. Les instructions sont fournies dans cet article.
Tous les composants (source de données et point de terminaison d’incorporation) doivent avoir un accès public activé pour que les nœuds du portail puissent y accéder. Sinon, l’Assistant échoue. Une fois l’Assistant exécuté, les pare-feu et les points de terminaison privés peuvent être activés dans les différents composants d’intégration pour la sécurité.

Si des points de terminaison privés sont déjà présents et ne peuvent pas être désactivés, l’autre option est d’exécuter le flux respectif de bout en bout à partir d’un script ou d’un programme sur une machine virtuelle au sein du même réseau virtuel que le point de terminaison privé. Voici un exemple de code Python pour la vectorisation intégrée. Dans le même dépôt GitHub, vous avez des exemples dans d’autres langages de programmation.

Vérifier l’espace disponible

Si vous commencez avec le niveau gratuit, vous êtes limité à trois index, trois sources de données, trois ensembles de compétences et trois indexeurs. Avant de commencer, assurez-vous de disposer d’assez d’espace pour stocker des éléments supplémentaires. Ce guide de démarrage rapide crée une occurrence de chaque objet.

Rechercher l’identité du service

Nous vous recommandons d’utiliser des attributions de rôle pour les connexions du service de recherche à d’autres ressources.

Dans la Recherche Azure AI, activez l’accès en fonction du rôle.
Configurez votre service de recherche pour utiliser une identité managée affectée par le système ou l’utilisateur.

Dans les sections suivantes, vous pouvez attribuer l’identité managée du service de recherche à des rôles dans d’autres services. Les étapes de l’attribution de rôle sont fournies le cas échéant.

Vérifier s’il y a un classement sémantique

Cet Assistant prend en charge le classement sémantique, mais uniquement à partir du niveau de base, et uniquement si le classement sémantique est déjà activé sur votre service de recherche. Si vous utilisez un niveau facturable, vérifiez que le classement sémantique est activé.

Préparer l’exemple de données

Cette section vous pointe vers des données qui fonctionnent pour ce guide de démarrage rapide.

Stockage Azure
OneLake

Connectez-vous au portail Azure avec votre compte Azure, puis accédez à votre compte stockage Azure.
Dans le menu de navigation, sous Stockage de données, sélectionnez Conteneurs.
Créez un conteneur, puis chargez les documents PDF des plans d’intégrité utilisés pour ce guide de démarrage rapide.
Dans le contrôle d’accès, attribuez Lecteur des données blob de stockage sur le conteneur à l’identité du service de recherche. Vous pouvez également obtenir une chaîne de connexion pour le compte de stockage depuis la page Clés d’accès.

Connectez-vous à Power BI et créez un espace de travail.
Dans Power BI, sélectionnez Espaces de travail dans le menu de gauche et ouvrez l’espace de travail que vous avez créé.
Attribuez des autorisations au niveau de l’espace de travail :
1. Sélectionnez Gérer l’accès dans le menu en haut à droite.
2. Sélectionnez Ajouter des personnes ou des groupes.
3. Entrez le nom de votre service de recherche. Par exemple, si l’URL est https://my-demo-service.search.windows.net, le nom du service de recherche est my-demo-service.
4. Sélectionner un rôle. La valeur par défaut est Viewer, mais vous avez besoin de Contributeur pour tirer les données dans un index de recherche.
Chargez l’exemple de données :
1. Dans le sélecteur Power BI situé en bas à gauche, sélectionnez Ingénieurs de données.
2. Dans l’écran Ingénieurs de données, sélectionnez Lakehouse pour créer un lakehouse.
3. Fournissez un nom, puis sélectionnez Créer pour créer et ouvrir le nouveau lakehouse.
4. Sélectionnez Charger les fichiers, puis chargez les documents PDF health-plan utilisés pour ce guide de démarrage rapide.
Avant de quitter le lakehouse, copiez l’URL ou obtenez les ID d’espace de travail et de lakehouse, pour pouvoir spécifier le lakehouse dans l’Assistant. L’URL est au format https://msit.powerbi.com/groups/00000000-0000-0000-0000-000000000000/lakehouses/11111111-1111-1111-1111-111111111111?experience=data-engineering

Configurer les modèles d’incorporation

La vectorisation intégrée et l’Assistant Importation et vectorisation des données utilisent les modèles d’incorporation déployés pendant l’indexation pour convertir du texte et des images en vecteurs.

Vous pouvez utiliser les modèles d’incorporation déployés dans Azure OpenAI, Azure AI Vision pour les incorporations multimodales ou dans le catalogue de modèles d’Azure AI Studio.

L’Assistant Importation et vectorisation des données prend en charge : text-embedding-ada-002, text-embedding-3-large, text-embedding-3-small. En interne, l’Assistant utilise la compétence AzureOpenAIEmbedding pour se connecter à Azure OpenAI.

Utilisez ces instructions afin d’attribuer des autorisations ou obtenir une clé API pour la connexion du service de recherche à Azure OpenAI. Vous devez configurer des autorisations ou avoir des informations de connexion en main avant d’exécuter l’Assistant.

Connectez-vous au portail Azure avec votre compte Azure, puis accédez à votre ressource Azure OpenAI.
Configurez les autorisations :
1. Sélectionnez Contrôle d’accès dans le menu de gauche.
2. Sélectionnez Ajouter, puis sélectionnez Ajouter une attribution de rôle.
3. Sous Rôles de fonction de travail, sélectionnez Utilisateur Cognitive Services OpenAI, puis Suivant.
4. Sous Membres, sélectionnez Identité managée, puis Membres.
5. Filtrez par abonnement et type de ressource (services de recherche), puis sélectionnez l’identité managée de votre service de recherche.
6. Sélectionnez Vérifier + attribuer.
Dans la page Vue d’ensemble, sélectionnez Cliquez ici pour voir les points de terminaison et Cliquez ici pour gérer les clés si vous devez copier un point de terminaison ou une clé API. Vous pouvez coller ces valeurs dans l’Assistant si vous utilisez une ressource Azure OpenAI avec une authentification basée sur des clés.
Sous Gestion des ressources et Déploiements de modèle, sélectionnez Gérer les déploiements pour ouvrir Azure AI Studio.
Copiez le nom de déploiement de text-embedding-ada-002 ou d’un autre modèle d’incorporation pris en charge. Si vous n’avez pas de modèle d’incorporation, déployez-en un maintenant.

Démarrer l’Assistant

Connectez-vous au portail Azure avec votre compte Azure, puis accédez à votre service Azure AI Search.
Dans la page Vue d’ensemble, sélectionnez Importation et vectorisation des données.

Connexion à vos données

L’étape suivante consiste à se connecter à une source de données à utiliser pour l’index de recherche.

Dans l’Assistant Importation et vectorisation des données sous l’onglet Se connecter à vos données, développez la liste déroulante Source de données, et sélectionnez Stockage Blob Azure ou OneLake.
Spécifiez l’abonnement Azure.
Pour OneLake, spécifiez l’URL de lakehouse, ou fournissez les ID d’espace de travail et de lakehouse.
Pour le Stockage Azure, sélectionnez le compte et le conteneur qui fournit les données.
Spécifiez si vous voulez la détection de suppression.
Cliquez sur Suivant.

Vectoriser votre texte

Dans cette étape, spécifiez le modèle d’incorporation utilisé pour vectoriser les données segmentées.

Spécifiez si les modèles déployés se trouvent dans Azure OpenAI, le catalogue de modèles Azure AI Studio ou une ressource multimodale Azure AI Vision existante dans la même région que la Recherche Azure AI.
Spécifiez l’abonnement Azure.
Pour Azure OpenAI, sélectionnez le service, le déploiement de modèle et le type d’authentification. Pour plus d’informations, consultez Configurer les modèles d’incorporation.
Pour le catalogue AI Studio, sélectionnez le projet, le déploiement de modèle et le type d’authentification. Pour plus d’informations, consultez Configurer les modèles d’incorporation.
Pour la vectorisation AI Vision, sélectionnez le compte. Pour plus d’informations, consultez Configurer les modèles d’incorporation.
Cochez la case indiquant que vous avez connaissance de l’impact de facturation de l’utilisation de ces ressources.
Cliquez sur Suivant.

Vectoriser et enrichir vos images

Si votre contenu contient des images, vous pouvez appliquer l’IA de deux façons :

Utiliser un modèle d’incorporation d’images pris en charge à partir du catalogue ou choisir l’API d’incorporations multimodales Azure AI Vision pour vectoriser les images.
Utiliser OCR pour reconnaître le texte dans les images.

La Recherche Azure AI et votre ressource Azure AI doivent se trouver dans la même région.

Spécifiez le type de connexion que l’Assistant doit établir. Pour la vectorisation d’images, il peut se connecter à des modèles d’incorporation dans Azure AI Studio ou Azure AI Vision.
Spécifiez l’abonnement.
Pour le catalogue de modèles Azure AI Studio, spécifiez le projet et le déploiement. Pour plus d’informations, consultez Configuration d’un modèle d’incorporation.
Si vous le souhaitez, vous pouvez fissurer des images binaires (par exemple, des fichiers de documents analysés) et utiliser des OCR pour reconnaître du texte.
Cochez la case indiquant que vous avez connaissance de l’impact de facturation de l’utilisation de ces ressources.
Cliquez sur Suivant.

Paramètres avancés

Si vous le souhaitez, vous pouvez ajouter classement sémantique pour reclasser les résultats à la fin de l’exécution de la requête, en favorisant les correspondances les plus sémantiquement pertinentes en haut.
Vous pouvez également spécifier une planification d’exécution pour l’indexeur.
Cliquez sur Suivant.

Exécuter l'assistant

Dans la page Vérifier et créer, spécifiez un préfixe pour les objets créés pendant l’exécution de l’Assistant. Un préfixe courant vous aide à rester organisé.
Sélectionnez Créer pour exécuter l’Assistant. Cette étape crée les objets suivants :
- Connexion de la source de données.
- Index avec des champs vectoriels, des vectoriseurs, des profils vectoriels, des algorithmes vectoriels. Vous n’êtes pas invité à concevoir ou modifier l’index par défaut pendant le flux de travail de l’Assistant. Les index sont conformes à l’API REST 2024-05-01-preview.
- Ensemble de compétences avec la compétence Fractionnement de texte pour la segmentation et une compétence d’incorporation pour la vectorisation. La compétence d’incorporation est la compétence AzureOpenAIEmbeddingModel pour Azure OpenAI ou la compétence AML pour le catalogue de modèles Azure AI Studio.
- Indexeur avec mappages de champs et mappages de champs de sortie (le cas échéant).

Si vous ne pouvez pas sélectionner le vectoriseur Azure AI Vision, vérifiez que vous avez une ressource Azure AI Vision dans une région prise en charge et que l’identité managée de votre service de recherche a l’autorisation Utilisateur Cognitive Services OpenAI.

Si vous ne pouvez pas avancer dans l’Assistant parce que d’autres options ne sont pas disponibles (par exemple, vous ne pouvez pas sélectionner une source de données ou un modèle d’incorporation), revenez aux attributions de rôle. Les messages d’erreur indiquent que les modèles ou les déploiements n’existent pas, alors qu’en fait le vrai problème est que le service de recherche n’a pas l’autorisation d’y accéder.

Vérifier les résultats

L’Explorateur de recherche accepte les chaînes de texte comme entrée, puis vectorise le texte pour l’exécution de requête vectorielle.

Dans le portail Azure, sous Gestion de la recherche et Index, sélectionnez l’index que vous avez créé.
Si vous le souhaitez, sélectionnez Options de requête et masquez les valeurs vectorielles dans les résultats de recherche. Cette étape facilite la lecture de vos résultats de recherche.
Sélectionnez Vue JSON afin de pouvoir entrer du texte pour votre requête vectorielle dans le paramètre de requête vectorielle text.

Cet Assistant propose une requête par défaut qui émet une requête vectorielle sur le champ « vector », et renvoie les 5 voisins les plus proches. Si vous avez choisi de masquer les valeurs vectorielles, votre requête par défaut comprend une instruction « select » qui exclut le champ vectoriel des résultats de la recherche.
```
{
   "select": "chunk_id,parent_id,chunk,title",
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}
```
Remplacez le texte "*" par une question relative aux régimes de santé, par exemple « quel régime a la franchise la plus faible ».
Sélectionnez Rechercher pour exécuter la requête.

Vous devez voir 5 correspondances, où chaque document est un morceau du fichier PDF d’origine. Le champ de titre indique le fichier PDF du bloc.

Pour voir tous les morceaux d’un document spécifique, ajoutez un filtre sur le champ de titre d’un fichier PDF spécifique :

{
   "select": "chunk_id,parent_id,chunk,title",
   "filter": "title eq 'Benefit_Options.pdf'",
   "count": true,
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}

Nettoyage

Azure AI Search est une ressource facturable. Si elle n’est plus nécessaire, supprimez-la de votre abonnement pour éviter des frais.

Étapes suivantes

Ce guide de démarrage rapide vous a présenté l’Assistant Importation et vectorisation des données qui crée tous les objets nécessaires à la vectorisation intégrée. Si vous souhaitez explorer chaque étape en détail, essayez un exemple de vectorisation intégrée.

Partager via