Eksploracja

Ważne

Od 20 września 2023 r. nie będzie można tworzyć nowych zasobów usługi Personalizacja. Usługa Personalizacja jest wycofywana 1 października 2026 r.

Dzięki eksploracji usługa Personalizacja jest w stanie stale dostarczać dobre wyniki, nawet gdy zmienia się zachowanie użytkownika.

Gdy usługa Personalizacja odbiera wywołanie rangi, zwraca element RewardActionID, który:

  • Używa znanego istotności, aby dopasować najbardziej prawdopodobne zachowanie użytkownika na podstawie bieżącego modelu uczenia maszynowego.
  • Używa eksploracji, która nie jest zgodna z akcją o najwyższym prawdopodobieństwie w klasyfikacji.

Personalizacja obecnie używa algorytmu o nazwie epsilon chciwość do zbadania.

Wybieranie ustawienia eksploracji

Należy skonfigurować procent ruchu do użycia na potrzeby eksploracji na stronie Konfiguracja witryny Azure Portal dla usługi Personalizacja. To ustawienie określa procent wywołań rangi wykonujących eksplorację.

Personalizator określa, czy eksplorować, czy używać najbardziej prawdopodobnej akcji modelu w każdym wywołaniu rangi. Jest to inne niż zachowanie w niektórych strukturach A/B, które blokują leczenie na określonych identyfikatorach użytkowników.

Najlepsze rozwiązania dotyczące wybierania ustawienia eksploracji

Wybranie ustawienia eksploracji to decyzja biznesowa o proporcji interakcji użytkowników do eksplorowania w celu ulepszenia modelu.

Ustawienie zero spowoduje negację wielu zalet usługi Personalizacja. Dzięki temu ustawieniu usługa Personalizacja nie korzysta z interakcji użytkownika w celu odnajdywania lepszych interakcji użytkownika. Prowadzi to do stagnacji modelu, dryfu i ostatecznie obniżenia wydajności.

Ustawienie, które jest zbyt wysokie, spowoduje negację korzyści wynikających z uczenia się z zachowania użytkownika. Ustawienie go na 100% oznacza stałą losowość, a wszelkie poznane zachowania użytkowników nie będą miały wpływu na wynik.

Ważne jest, aby nie zmieniać zachowania aplikacji na podstawie tego, czy usługa Personalizacja eksploruje, czy też korzysta ze poznanej najlepszej akcji. Doprowadziłoby to do uczenia się uprzedzeń, które ostatecznie zmniejszyłyby potencjalną wydajność.

Następne kroki

Uczenie wzmacniania