4 min.

Fałszywe pozytywy: podobieństwo zapytań ważniejsze niż skala

Abstrakt

Problem długiego ogona zapytań wyszukiwawczych jest fundamentalnym wyzwaniem każdej platformy e-commerce o zasięgu globalnym. Zapytania rzadkie, generujące mniej niż kilka wyświetleń dziennie, mogą stanowić ponad połowę wolumenu wyszukiwania, lecz algorytmy klasyfikacji trafności nie dysponują dla nich wystarczającą liczbą obserwacji behawioralnych, by skutecznie rankingować produkty. Reformulacja zapytań (QR) odpowiada na ten problem przez pożyczanie sygnałów behawioralnych od semantycznie podobnych zapytań popularnych: system mapuje rzadkie zapytanie na powiązane zapytania z bogatą historią kliknięć i zakupów, a tym samym poprawia trafność wyników dla długiego ogona. Badanie Zhang i współpracowników¹ dokumentuje, że ta intuicyjnie atrakcyjna strategia zawodzi w praktyce produkcyjnej z powodu strukturalnego problemu fałszywych pozytywów w danych treningowych, a skala zbioru danych nie jest antidotum na tę patologię. Praca prezentuje trzy innowacje, które ten problem rozwiązują: metrykę podobieństwa opartą na dywergencji Jensena-Shannona (JSD), normalizację zapytań zwiększającą zasięg systemu z 166 tysięcy do ponad 3 milionów unikalnych zapytań rzadkich, oraz technikę trudnych negatywów ANCE uczącą model subtelnych rozróżnień semantycznych. Łącznie te trzy komponenty odwróciły trend z testów A/B: zamiast straty 0,05% przychodu osiągnięto zysk od 0,08% do 0,29% w zależności od rynku.

Mechanizm pożyczania sygnałów behawioralnych w QR opiera się na założeniu, że klienci formułujący różne zapytania szukają semantycznie tego samego produktu, więc historia zakupów dla jednego zapytania jest informacją użyteczną dla rankingowania produktów przy drugim¹. Założenie to jest poprawne w ograniczonym zakresie, lecz generuje fałszywe pozytywy, gdy model mapuje zapytania o szerokim i wąskim zasięgu produktowym. Autorzy przywołują konkretny przykład: "furniture" i "dining table" są semantycznie powiązane, lecz pożyczenie sygnałów od zapytania szerszego do węższego promuje produkty meblowe niezwiązane ze stołami jadalnymi na wyniki dla klientów poszukujących konkretnego mebla. Tradycyjne metryki podobieństwa oparte na zbiorach produktów klikniętych lub kupionych przy obu zapytaniach nie wykrywają tej asymetrii, ponieważ mierzą część wspólną jako procent jednego ze zbiorów, ignorując rozbieżność całości dystrybucji behawioralnej. System produkcyjny działający według tej logiki osiągał w testach A/B wynik gorszy od wariantu kontrolnego o 0,05% przychodu w Japonii, co przy skali platformy oznacza realną stratę, nie tylko statystyczną anomalię.

Pierwsza i druga innowacja badania¹ adresują problem fałszywych pozytywów na poziomie danych treningowych. Dywergencja Jensena-Shannona (JSD) mierzy odległość między pełnymi dystrybucjami zakupowymi dwóch zapytań, a nie ich iloczyn zbiorowy, co pozwala wykryć pary, w których jeden zbiór jest podzbiorem drugiego przy wysokiej powierzchownej podobieńce. Próbki o niskiej wadze JSD, odpowiadającej wysokiej rozbieżności dystrybucji, są pomijane lub depriorytetyzowane podczas treningu, co eliminuje ze zbioru treningowego dokładnie te pary o typie "furniture/dining table", które zatruwały model. Jednocześnie normalizacja zapytań przeskalowała bazę treningową z 9 milionów do 348 milionów par, a liczba unikalnych zapytań rzadkich wzrosła z 166 tysięcy do ponad 3 milionów. Normalizacja polega na zunifikowaniu wariantów zapisu tego samego zapytania: różnych stopni pisowni, znaków diakrytycznych i kolejności słów, w jedną kanoniczną reprezentację, co ujawnia połączenia behawioralne między zapytaniami dotychczas rozpoznawanymi jako odmienne. Skalowanie to nie jest trywialne: bez filtru JSD naiwne zwiększenie skali danych wzmocniłoby fałszywe pozytywy proporcjonalnie do wzrostu liczby par.

Trzecia innowacja, technika trudnych negatywów ANCE (Approximate Nearest Neighbor Negative Contrastive Estimation), adresuje odmienny problem: nawet model trenowany na poprawnych parach pozytywnych może nie nauczyć się subtelnych rozróżnień semantycznych, jeśli przykłady negatywne w zbiorze treningowym są trywialnie różne od pozytywnych¹. ANCE zastępuje losowe negatywy semantycznie bliskimi parami ujemnymi, które model aktualnie błędnie klasyfikuje jako podobne. W architekturze podwójnego enkodera bi-encoder pełni rolę modelu ucznia, a cross-encoder modelem nauczyciela: nauczyciel co iterację generuje listę trudnych negatywów dla ucznia, który musi się nauczyć je odrzucać. Wyniki offline dokumentują paradoks: w ogólnym scenariuszu ewaluacyjnym NDCG@3 dla wariantu z trudnymi negatywami wynosi 0,66879, wobec 0,67733 dla baseline, co wygląda jak regresja. W scenariuszu skupionym na najtrudniejszych parach negatywnych NDCG@3 wzrasta z 0,34844 do 0,67733, niemal podwajając wynik. AUC klasyfikacji rośnie z 0,51 do 0,79, a recall@100 z 0,5903 do 0,7984, co oznacza wzrost o 35,2%. Ogólny NDCG@3 spada, ponieważ model poświęca część łatwych przypadków na rzecz precyzji przy najtrudniejszych parach semantycznych.

Wyniki testów A/B przeprowadzonych na platformie Amazon potwierdzają, że łącznie trzy innowacje odwróciły kierunek efektu systemu QR¹. Stary system, działający bez filtru JSD, bez normalizacji i bez trudnych negatywów, osiągał w Japonii wynik o 0,05% gorszy od grupy kontrolnej, co autorzy interpretują jako dowód na to, że fałszywe pozytywy aktywnie szkodziły rankingowaniu. Nowy system osiąga wzrost przychodu o 0,14% w Japonii, 0,29% w Hindi i 0,08% w angielskim segmencie platformy, a przychody z reklam rosną o 0,36% w Japonii. Hierarchia przyrostów między rynkami odzwierciedla dostępność i jakość danych behawioralnych: język hindi historycznie posiadał najsłabszy coverage systemu QR, więc poprawa zasięgu wynikająca z normalizacji zapytań ujawnia tu największy zysk. Japonia, choć pod względem wolumenu jest rynkiem dojrzałym, zyskuje nieproporcjonalnie na poprawie jakości reklam, co sugeruje, że fałszywe pozytywy w danych QR wpływały negatywnie nie tylko na organiczne rankingowanie, lecz także na mechanizm dopasowywania reklam produktowych do zapytań.

Praktyczne rekomendacje

Pierwsza rekomendacja wynika bezpośrednio z paradoksu skali zidentyfikowanego w badaniu¹ i adresuje platformy planujące skalowanie zbioru danych treningowych dla modeli wyszukiwania lub rekomendacji. Powiększenie liczby par zapytanie-produkt przez ekstrakcję danych z logów klikalnych jest standardowym zabiegiem poprawy zasięgu modelu, lecz bez mechanizmu filtrowania jakości generuje proporcjonalny wzrost liczby fałszywych pozytywów. Platforma posiadająca dostęp do historii zakupów, a nie tylko kliknięć, powinna przed skalowaniem zaimplementować metrykę opartą na pełnej dystrybucji sygnału, a nie jego iloczynie zbiorowym. Dywergencja Jensena-Shannona jest mierzalna bez dodatkowych etykiet ludzkich i może służyć jako automatyczny filtr odcinający pary o niskiej wiarygodności semantycznej. Priorytetowanie sygnałów zakupowych nad kliknięciowymi w tej metryce jest szczególnie istotne, ponieważ zakupy silniej korelują z intencją zakupową i są mniej podatne na szum eksploracyjny wynikający z ciekawości klienta, a nie jego rzeczywistej potrzeby.

Druga rekomendacja dotyczy strategii obsługi wielojęzycznych platform z heterogeniczną gęstością danych behawioralnych¹. Rynki o niższym wolumenie wyszukiwania, takie jak rynki języków mniejszościowych czy nowopowstałe segmenty geograficzne, naturalnie generują mniej par behawioralnych per zapytanie, co sprawia, że modele QR wykazują tam największe luki w pokryciu długiego ogona. Normalizacja zapytań, polegająca na zunifikowaniu wariantów ortograficznych i morfologicznych w kanoniczną reprezentację, jest niskonakładową metodą rozszerzenia efektywnego zasięgu systemu bez konieczności gromadzenia nowych danych: te same interakcje klientów są mapowane na większą liczbę zapytań rzadkich. Wdrożenie tej techniki powinno poprzedzać skalowanie zbioru treningowego, ponieważ normalizacja ujawnia połączenia behawioralne między zapytaniami dotychczas traktowanymi jako odmienne, co zmienia profil przykładów kierowanych do filtru JSD.

Trzecia rekomendacja ma charakter architektoniczny i dotyczy ewaluacji modeli wyszukiwania w środowiskach produkcyjnych¹. Wyniki offline NDCG@3 modelu z trudnymi negatywami wykazały pozorną regresję w ogólnym scenariuszu ewaluacyjnym, podczas gdy wyniki online w testach A/B były pozytywne. Rozbieżność ta wynika z faktu, że standardowe benchmarki ewaluacyjne są zdominowane przez łatwe przypadki, w których model baseline radzi sobie dobrze, i nie ważą odpowiednio przypadków faktycznie determinujących jakość wyszukiwania przy zapytaniach rzadkich i niejednoznacznych. Dla platform wdrażających modele wyszukiwania oznacza to konieczność budowania wyspecjalizowanych zestawów ewaluacyjnych skoncentrowanych na najtrudniejszych parach semantycznych, a nie poleganie wyłącznie na metrykach ogólnych. Ocena modelu wyłącznie na metryce NDCG@3 w scenariuszu ogólnym prowadziłaby do odrzucenia wariantu, który w produkcji generuje wzrost przychodu.

Źródła

Zhang Zhiyu, Siddiqui Tanvir Ahmed, Zhao Kaige, Murthy Rajeev. Towards Scalability and Extensibility of Query Reformulation Modeling in E-Commerce Search. CIKM '24, ACM, 2024.

Rekomendowane

Zhejiang Wanli Univ.

Badanie | Zhejiang Wanli Univ.

Luka badawcza: rekomendacje dla lojalnych vs wzrost marek

Analiza 12 481 artykułów (2014–2023) ujawnia, że agenda badawcza e-commerce skupia się na rekomendacjach i lojalności, ignorując penetrację kategorii — główny mechanizm wzrostu marki.

4 min czytania Czytaj

Mo RiGen, Wang Shao-bu. E-commerce Research in the Past Decade: A Bibliometric Analysis. SAGE Open, 2025. Sharp Byron. How Brands Grow: What Marketers Don't Know. Oxford University Press, 2010. Ehrenberg Andrew, Uncles Mark, Goodhardt Gerald. Understanding Brand Performance Measures: Using Dirichlet Benchmarks. Journal of Business Research, 2004.

ASE Bucharest

Badanie | ASE Bucharest

Paradoks literatury AI: wzrost badań kontra wskaźnik wycofań

44,65% roczny wzrost badań o AI w e-commerce przy 10,34% wskaźniku retrakcji: szybkość produkcji wiedzy wyraźnie wyprzedza możliwości kontroli jej jakości.

4 min czytania Czytaj

Sandu Andra, Cotfas Liviu-Adrian, Ioanăș Corina, Cișmașu Irina-Daniela, Delcea Camelia. E-Commerce Meets Emerging Technologies: An Overview of Research Characteristics, Themes, and Trends. Journal of Theoretical and Applied Electronic Commerce Research, MDPI, 2025.

GSC Research

Badanie | GSC Research

Paradoks personalizacji: algorytm buduje i niszczy lojalność

Ten sam algorytm, który precyzuje rekomendacje, absorbuje uprzedzenia historyczne i przy zbyt agresywnej personalizacji zamienia postrzeganą usługę w postrzeganą inwigilację.

4 min czytania dla subskrybentów

Raji Mustafa Ayobami, Olodo Hameedat Bukola, Oke Timothy Tolulope, Addy Wilhelmina Afua, Ofodile Onyeka Chrisanctus, Oyewole Adedoyin Tolulope. E-commerce and consumer behavior: A review of AI-powered personalization and market trends. GSC Advanced Research and Reviews, 2024.

MDU Rohtak

Badanie | MDU Rohtak

Trzy dekady AI w e-commerce: analiza 1 458 badań ujawnia

Analiza bibliometryczna 1 458 artykułów (1995–2024): AI w e-commerce skupia się na systemach rekomendacji kosztem etyki algorytmów i zaufania — tematów o najwyższej wartości regulacyjnej.

4 min czytania Czytaj

Chugh Priya, Jain Vishu. Artificial Intelligence (AI) Empowerment in E-Commerce: A Bibliometric Voyage. NMIMS Management Review 32(3), SAGE, 2024.

Skopiuj link

Udostępnij