Azure AI Search'te anlamsal derecelendirme

Makale
02/08/2024

Azure AI Search'te anlam derecelendirmesi, arama sonuçlarını yeniden kırpmak için dil anlama kullanarak aramanın ilgi düzeyini ölçülebilir şekilde artırır. Bu makale üst düzey bir giriş niteliğindedir. Sonundaki bölüm kullanılabilirlik ve fiyatlandırmayı kapsar.

Anlam dereceleyicisi, kullanıma göre faturalanan premium bir özelliktir. Arka plan için bu makaleyi öneririz, ancak kullanmaya başlamayı tercih ederseniz şu adımları izleyin:

Not

Anlamsal derecelendirme, üretken yapay zeka veya vektörleri kullanmaz. Vektör desteği ve benzerlik araması arıyorsanız? Ayrıntılar için bkz . Azure AI Search'te vektör araması.

Anlamsal derecelendirme nedir?

Semantik derecelendirici, metin tabanlı sorgular için ilk BM25 dereceli veya RRF dereceli arama sonucunun kalitesini geliştiren sorguyla ilgili özelliklerden oluşan bir koleksiyondur. Arama hizmetinizde etkinleştirdiğinizde anlam derecelendirmesi sorgu yürütme işlem hattını iki şekilde genişletir:

İlk olarak, BM25 veya RRF kullanılarak puanlanan ilk sonuç kümesine ikincil derecelendirme ekler. Bu ikincil derecelendirmede, en önemli sonuçları teşvik etmek için Microsoft Bing'den uyarlanmış çok dilli derin öğrenme modelleri kullanılır.
İkincisi, kullanıcının arama deneyimini geliştirmek için arama sayfasında işleyebileceğiniz yanıttaki başlık ve yanıtları ayıklar ve döndürür.

Anlamsal reranker'ın özellikleri şunlardır.

Özellik	Açıklama
Anlamsal derecelendirme	Önceden eklenen sonuçlara göre yeni bir ilgi puanı hesaplamak için sorgunun bağlamını veya anlamsal anlamını kullanır.
Anlamsal başlık ve vurgular	Belgeden içeriği en iyi özetleyen ayrıntılı tümceleri ve tümcecikleri ayıklar ve kolay tarama için önemli bölümleri vurgular. Bir sonucu özetleyen resim yazıları, tek tek içerik alanları arama sonuçları sayfası için çok yoğun olduğunda yararlıdır. Vurgulanan metin, kullanıcıların bir eşleşmenin neden ilgili olarak değerlendirildiğini hızla belirleyebilmesi için en ilgili terimleri ve tümcecikleri yükseltir.
Anlamsal yanıtlar	Semantik sorgudan döndürülen isteğe bağlı ve ek bir alt yapı. Soru gibi görünen bir sorguya doğrudan yanıt sağlar. Belgenin yanıt özelliklerine sahip bir metin olmasını gerektirir.

Semantik dereceleyici nasıl çalışır?

Anlam derecelendirmesi bir sorguyu ve sonuçları Microsoft tarafından barındırılan dil anlama modellerine besler ve daha iyi eşleşmeleri tarar.

Aşağıdaki çizimde kavram açıklanmaktadır. "Sermaye" terimini göz önünde bulundurun. Bağlamın finans, hukuk, coğrafya veya dil bilgisi olmasına bağlı olarak farklı anlamlara sahiptir. Semantik dereceleyici, dil anlama yoluyla bağlamı algılayabilir ve sorgu amacına uygun sonuçları yükseltebilir.

Anlam derecelendirmesi hem kaynak hem de zaman açısından yoğundur. Bir sorgu işleminin beklenen gecikme süresi içinde işlemeyi tamamlamak için, yeniden boyutlandırma adımının mümkün olan en kısa sürede tamamlanması için anlam derecesine giren girişler bir araya gelir ve azaltılır.

Anlam sıralamanın iki adımı vardır: özetleme ve puanlama. Çıkışlar yeniden kaydedilen sonuçlardan, başlık ve yanıtlardan oluşur.

Girişler nasıl toplanır ve özetlenir?

Anlamsal derecelendirmede, sorgu alt sistemi arama sonuçlarını özetleme ve derecelendirme modellerine giriş olarak geçirir. Derecelendirme modellerinin giriş boyutu kısıtlamaları olduğundan ve yoğun işlemeye sahip olduğundan, verimli işleme için arama sonuçlarının boyutlandırılması ve yapılandırılması (özetlenmiş) olması gerekir.

Anlamsal sıralama, bir metin sorgusundan BM25 dereceli bir sonuçla veya karma sorgudan RRF dereceli bir sonuçla başlar. Yeniden boyutlandırma alıştırmasında yalnızca metin alanları kullanılır ve sonuçlar 50'den fazla olsa bile yalnızca ilk 50 sonuç semantik derecelendirmeye ilerler. Genellikle anlamsal derecelendirmede kullanılan alanlar bilgilendirici ve açıklayıcıdır.
Arama sonucundaki her belge için özetleme modeli en fazla 2.000 belirteç kabul eder ve burada bir belirteç yaklaşık 10 karakterdir. Girişler semantik yapılandırmada listelenen "title", "keyword" ve "content" alanlarından bir araya gelir.
Toplam uzunluğun özetleme adımının giriş gereksinimlerini karşıladığından emin olmak için aşırı uzun dizeler kırpılır. Bu kırpma alıştırması, semantik yapılandırmanıza öncelik sırasına göre alan eklemenin önemli olmasının nedenidir. Yoğun metin içeren çok büyük belgeleriniz varsa, üst sınırdan sonraki her şey yoksayılır.

Anlamsal alan Belirteç sınırı

"title" 128 belirteç

"anahtar sözcükler 128 belirteç

"içerik" kalan belirteçler
Özetleme çıktısı, her belge için, her alandan en ilgili bilgilerden oluşan bir özet dizesidir. Özet dizeler puanlama için dereceye, başlık ve yanıtlar için makine okuma kavrama modellerine gönderilir.

Anlam derecesine geçirilen her bir özet dizenin uzunluk üst sınırı 256 belirteçtir.

Anlamsal alan	Belirteç sınırı
"title"	128 belirteç
"anahtar sözcükler	128 belirteç
"içerik"	kalan belirteçler

Semantik dereceleyicinin çıkışları

Her özet dizeden, makine okuma kavrama modelleri en temsili olan pasajları bulur.

Çıkışlar şunlardır:

Belge için anlamsal başlık. Her başlık düz metin sürümünde ve vurgulama sürümünde kullanılabilir ve genellikle belge başına 200 sözcükten daha azdır.
Parametreyi answers belirttiğinizi varsayarsak isteğe bağlı bir anlamsal yanıt, sorgu bir soru olarak sunulur ve uzun dizede soruya olası bir yanıt sağlayan bir metin bulunur.

Açıklamalı alt yazılar ve yanıtlar her zaman dizininizdeki ayrıntılı metinlerdir. Bu iş akışında yeni içerik oluşturan veya oluşturan bir yapay zeka modeli yoktur.

Özetlerin puanlandırılması

Puanlama, başlık ve özet dizesinden 256 belirteç uzunluğunu dolduran diğer tüm içerikler üzerinden yapılır.

Açıklamalı alt yazılar, sağlanan sorguya göre kavramsal ve anlamsal ilgi açısından değerlendirilir.
Her belgeye, verilen sorgu için belgenin anlamsal ilgisine göre bir @search.rerankerScore atanır. Puanlar 4 ile 0 (yüksekten düşüke) arasında değişir ve daha yüksek bir puan daha yüksek bir ilgi gösterir.
Eşleşmeler puana göre azalan sırada listelenir ve sorgu yanıtı yüküne eklenir. Yük yanıtlar, düz metin ve vurgulanmış başlık ve alınabilir olarak işaretlediğiniz veya bir select yan tümcesinde belirttiğiniz alanları içerir.

Not

14 Temmuz 2023'te @search.rerankerScore dağılımı değişiyor. Puanlar üzerindeki etki, test dışında belirlenemez. Bu yanıt özelliğinde sabit eşik bağımlılığınız varsa, eşiğiniz için yeni değerlerin ne olması gerektiğini anlamak için testlerinizi yeniden çalıştırın.

Anlamsal özellikler ve sınırlamalar

Anlam dereceleyicisi daha yeni bir teknoloji olduğundan yapabilecekleri ve yapabilecekleri hakkında beklentileri belirlemek önemlidir. Yapabilecekleri:

Özgün sorgunun amacına benzer şekilde daha yakın olan eşleşmeleri yükseltin.
başlık ve yanıt olarak kullanılacak dizeleri bulun. Açıklamalı alt yazılar ve yanıtlar yanıtta döndürülür ve arama sonuçları sayfasında işlenebilir.

Anlamsal sıralamanın gerçekleştirebildiği şey, anlamsal olarak ilgili sonuçları bulmak için sorguyu tüm corpus üzerinde yeniden çalıştırmaktır. Anlamsal derecelendirme, varsayılan derecelendirme algoritması tarafından puanlanan ilk 50 sonuçtan oluşan mevcut sonuç kümesini yeniden oluşturur. Ayrıca semantik derecelendirme yeni bilgiler veya dizeler oluşturamaz. Açıklamalı alt yazılar ve yanıtlar içeriğinizden ayrıntılı olarak ayıklanır, böylece sonuçlar yanıt benzeri metin içermiyorsa dil modelleri bu metni üretmez.

Anlamsal derecelendirme her senaryoda yararlı olmasa da, bazı içerikler özelliklerinden önemli ölçüde yararlanabilir. Anlamsal derecelendirmedeki dil modelleri en iyi şekilde bilgi açısından zengin ve yordam olarak yapılandırılmış aranabilir içerik üzerinde çalışır. Açıklayıcı içerik içeren bilgi bankası, çevrimiçi belgeler veya belgeler, anlamsal derecelendirme özelliklerinden en fazla kazancı görür.

Temel alınan teknoloji Bing ve Microsoft Research'dür ve eklenti özelliği olarak Azure AI Search altyapısıyla tümleşiktir. Anlamsal derecelendirmeyi desteklemek için yapılan araştırma ve yapay zeka yatırımları hakkında daha fazla bilgi için bkz . Bing'den yapay zeka azure yapay zeka aramasını nasıl güçlendiriyor (Microsoft Research Blogu).

Aşağıdaki videoda özelliklere genel bir bakış sunulmaktadır.

Kullanılabilirlik ve fiyatlandırma

Semantik dereceleyici, bölgesel kullanılabilirliğe bağlı olarak Temel ve daha yüksek katmanlardaki arama hizmetlerinde kullanılabilir.

Anlam derecesini etkinleştirdiğinizde, özellik için bir fiyatlandırma planı seçin:

Daha düşük sorgu birimlerinde (aylık 1000'in altında), anlam derecelendirmesi ücretsizdir.
Daha yüksek sorgu hacimlerinde standart fiyatlandırma planını seçin.

Azure AI Search fiyatlandırma sayfası, farklı para birimleri ve aralıklar için faturalama oranını gösterir.

Sorgu istekleri dahil queryType=semantic olduğunda ve arama dizesi boş olmadığında (örneğin, search=pet friendly hotels in New York) anlam sıralaması ücretleri alınır. Arama dizeniz boşsa ()search=* queryType semantik olarak ayarlansa bile ücretlendirilemezsiniz.