Pomiń nawigację

Niestandardowe wyodrębnianie jednostek z analizą tekstu

Introduction

Rozpoznawanie jednostek nazwanych to kluczowy obszar badań nad uczeniem maszynowym i przetwarzaniem języka naturalnego. Funkcja wyodrębniania jednostek ściąga jednostki nazwane, które można przeszukiwać, z tekstu pozbawionego struktury. W praktyce służy to do odpowiadania na liczne pytania ze świata rzeczywistego, takie jak ustalanie, czy tweet zawiera nazwisko i lokalizację danej osoby, czy firma została wspomniana w artykule albo czy określony produkt został wymieniony w recenzji. Wyodrębnianie jednostek jest szczególnie przydatne w przypadku zastosowania w obszarach, w których intensywnie używa się terminologii specyficznej dla danej dziedziny, na przykład w służbie zdrowia, dokumentacji prawnej czy nauce.

Prepare data

Tekst bez struktury, na przykład występujący w dokumentach, tweetach czy recenzjach produktów, zazwyczaj wymaga wstępnego przetworzenia, zanim będzie można go analizować. Przetwarzanie wstępne obejmuje usuwanie duplikatów lub znaków specjalnych, zamianę form fleksyjnych słów na ich formy podstawowe lub konwersję wielkości liter. Po oczyszczeniu tekstu jest on przetwarzany w celu wyodrębnienia najważniejszych lub najczęściej występujących terminów. Jest to ważny krok ograniczający stopień skomplikowania rozwiązania: każde słowo jest funkcją, którą model musi obsłużyć, a ta czynność zmniejsza liczbę funkcji z miliardów do tysięcy. Następnie jest tworzony słownik. Słownik składa się ze słów (unigramów) używanych do uczenia modelu przy użyciu liczby wystąpień unigramów w korpusie tekstowym. W dalszej kolejności są obliczane metryki w celu zmierzenia częstotliwości występowania i ważności poszczególnych unigramów.

Build and train

Po utworzeniu słownika dane są dzielone na zestaw do celów szkoleniowych i zestaw do celów weryfikacji, a następnie rozpoczyna się tworzenie modelu. Często używane algorytmy wyodrębniania jednostek obejmują zakres od dwuklasowej regresji logistycznej do wieloklasowych lasów decyzyjnych. Ostatnio rozwiązania do wyodrębniania jednostek używają zaawansowanych technik uczenia głębokiego, takich jak rekurencyjne sieci neuronowe Long Short-Term Memory wraz z algorytmami uczenia nienadzorowanego osadzania słów, które trenują sieć neuronową, korzystając z korpusu szkoleniowego bez etykiet. Do oceniania modeli służą wyniki F1 oraz wyniki dotyczące kompletności i precyzji. W rezultacie dobrze działający model wyodrębniania jednostek uczony na małym zestawie przykładów będzie w stanie uogólnić rozumienie z dowolnego tekstu przekazanego do systemu.

Deploy

Po określeniu najbardziej efektywnego wariantu modelu zostanie on wdrożony w sposób umożliwiający jego użycie w aplikacji. Często oznacza to, że model jest wdrażany jako usługa internetowa z punktem końcowym REST. Model może być wówczas wywoływany przez aplikacje biznesowe lub oprogramowanie analityczne. W zależności od potrzeb biznesowych usługi internetowe są używane w 2 trybach: żądanie-odpowiedź lub wsadowym. Przetwarzanie tekstu w czasie rzeczywistym doskonale sprawdza się w przypadku oceniania tekstu pochodzącego z tweetów lub komentarzy w witrynie internetowej produktu, gdy tekst musi zostać oceniony pod kątem użycia w aplikacji. Użyj trybu wsadowego, aby efektywnie przetworzyć większe ilości danych, na przykład przeanalizować korpus tekstów prawnych lub duże ilości danych historycznych.

Customers are doing great things with AI