4 min.

Semantyczna luka w wyszukiwarce, wzrost GMV o 18%

Abstrakt

Segment zapytań przynoszący sklepowi największe straty przychodowe nie jest tym, w którym produkt nie istnieje — jest tym, w którym produkt jest, ale wyszukiwarka go nie znajduje. Gdy klient wpisuje "samodzielna ślepa paczka" zamiast branżowego "DIY blind box", tradycyjny mechanizm dopasowania oparty na indeksie odwróconym nie połączy tych fraz i wyświetli pustą stronę wyników lub kategorię nieistotnych produktów. Taobao, jedna z największych platform e-commerce świata, zidentyfikowała tę lukę jako strukturalny problem przychodowy i podjęła zakrojone na szeroką skalę badania nad jej usunięciem. Efektem prac jest framework BEQUE¹, który po czternastodniowym teście A/B na urządzeniach mobilnych przyniósł wzrost GMV o 18,66% w segmencie zapytań wcześniej zwracających znikome wyniki. Skala tego efektu dowodzi, że problem "few-recall" nie jest marginalną niedogodnością, lecz ukrytym rezerwuarem konwersji, który w każdym sklepie o obrotach powyżej dziesięciu milionów złotych przekłada się na dziesiątki lub setki tysięcy złotych utraconego przychodu miesięcznie.

Zjawisko semantycznej luki jest w literaturze dobrze opisane, jednak jego szczególnie złośliwa odmiana, czyli systematyczne zaniedbanie długiego ogona zapytań, wynika ze strukturalnej wady danych treningowych, a nie z samej architektury modeli. Systemy przepisywania zapytań trenowane na logach wyszukiwania uczą się na próbce, w której popularne frazy reprezentowane są tysiącami przykładów, a ogonowe zaledwie pojedynczymi lub żadnymi. Autorzy badania określają ten mechanizm efektem Mateusza w danych¹: im częstsze zapytanie, tym więcej sygnału uczącego, tym lepiej obsługiwane, i odwrotnie. Skutkiem jest model znakomicie obsługujący siedemdziesiąt procent ruchu, lecz bezradny wobec pozostałych trzydziestu, gdzie potrzeba semantycznej pomocy jest największa. Taobao definiuje te trzy segmenty precyzyjnie: zapytania "top" zwracają ponad 70% trafnych produktów, "torso" od 10% do 70%, a "tail" poniżej 10%¹. Właśnie ten ostatni segment jest docelowym obszarem interwencji systemu BEQUE, i to on generuje najbardziej dramatyczne wyniki w testach online.

Architektura BEQUE opiera się na trzech etapach, których kolejność odzwierciedla logikę narastającego doprecyzowania celu uczenia¹. W etapie pierwszym model językowy Qwen o siedmiu miliardach parametrów przechodzi fine-tuning nadzorowany na zbiorze 419 806 par zapytanie–przepisanie, wyselekcjonowanych z ponad dwudziestu milionów rekordów przez dwuetapowe próbkowanie odrzucające, czyli mechanizm wyodrębniający z surowych logów wyłącznie te przykłady, gdzie przepisanie jednocześnie zachowuje trafność względem pierwotnej intencji i rozszerza zbiór zwracanych produktów. Do zbioru treningowego dołączono dodatkowo 155 662 ręcznie annotowanych przykładów oraz 50 000 próbek z trzech zadań pomocniczych: klasyfikacji jakości przepisania, predykcji tytułu produktu i rozumowania krok po kroku. Ten ostatni element, polegający na zadaniu, w którym adnotatorzy musieli nie tylko zaproponować przepisanie, ale też opisać własny tok myślenia, okazał się szczególnie skuteczny w rozwijaniu zdolności modelu do obsługi zapytań, których semantyki nie można wyprowadzić wprost z popularnych wzorców¹.

Drugi i trzeci etap BEQUE rozwiązują problem, przed którym zatrzymują się wszystkie metody oparte wyłącznie na uczeniu ze wzmocnieniem: niepewność co do jakości modelu nagrody. Zamiast uczyć osobnego modelu, który oceniałby przepisania, autorzy podłączyli sam silnik wyszukiwania Taobao jako wyroczni jakości¹. Dla każdego próbkowanego zapytania model generuje pięć kandydatów metodą beam search; są one następnie przepuszczane przez offline'owy symulator wyszukiwarki, który zwraca trzy miary: trafność (relevance), przyrost zasięgu (increment) i uzupełnienie luki intencji (hitrate). Na podstawie tych miar kandydaci zostają uszeregowani, a uzyskany porządek częściowy staje się sygnałem uczącym dla metody PRO, czyli Preference Rank Optimization, kontrastywnego podejścia opartego na modelu Bradleya-Terry'ego, które kalibruje prawdopodobieństwa generowania tak, aby przepisania osiągające lepsze wyniki w wyszukiwarce były faworyzowane przez model¹. Kluczową implikacją architektoniczną jest tu eliminacja pośrednika: sygnał pochodzi bezpośrednio z zachowania rynku, a nie z modelu statystycznego, który rynek stara się odwzorować. Badanie dowodzi, że podejście RL trenowane na tych samych danych konsekwentnie ustępuje BEQUE, gdyż reward model wprowadza błędy systematyczne nieobecne w podejściu kontrastywnym¹.

Wyniki czternastodniowego testu A/B na platformie Taobao Mobile potwierdzają skuteczność podejścia na wielu poziomach granularności¹. Mierzony na całym ruchu przyrost GMV wyniósł 0,40%, co przy skali platformy oznacza miliony dolarów dodatkowego obrotu. Dla zapytań objętych przepisaniem, stanowiących 27% odsłon, wzrost GMV osiągnął 2,96%, liczba transakcji wzrosła o 1,36%, a liczba unikalnych odwiedzających o 1,22%. Najostrzejszy sygnał pochodzi jednak z segmentu "few-recall": wzrost GMV o 18,66%, liczby transakcji o 5,90% i odwiedzin o 6,25%¹. Interpretacja tych liczb wymaga precyzji: nie oznaczają one, że BEQUE wytworzył nowy popyt, lecz że popyt istniał i był systematycznie blokowany przez lukę semantyczną między językiem użytkownika a strukturą indeksu. Istnieje jednak ograniczenie skali: ze względu na wymagania latencyjne modele LLM działają wyłącznie w trybie offline, a ich przepisania przechowywane są w grafie klucz–wartość, co oznacza, że system obejmuje jedynie zapytania przewidziane w bazie, pozostawiając poza zasięgiem nowe, dotychczas niewidziane frazy¹.

Praktyczne rekomendacje

Pierwsza rekomendacja dotyczy diagnozy, która musi poprzedzać każde działanie optymalizacyjne. Menedżer odpowiedzialny za wyszukiwarkę produktową powinien jako priorytet zbudować segmentację ruchu analogiczną do tej zastosowanej przez Taobao¹, wyodrębniając zapytania według odsetka trafnych wyników i traktując segment "few-recall" jako osobny problem atrybucyjny. Jeśli platforma zwraca zero produktów lub wyniki bez związku z intencją zakupową na zapytanie, które logicznie powinno mieć odpowiedź w katalogu, przyczyną jest z dużym prawdopodobieństwem semantyczna luka, a nie brak towaru. W praktyce sklepów działających na standardowych platformach taką diagnostykę można przeprowadzić przez eksport logów wyszukiwania z podziałem na liczbę wyników i identyfikację fraz, gdzie wyniki są puste lub poniżej progu klikalności. Wyznaczona w ten sposób skala segmentu "few-recall" bezpośrednio wskazuje na wielkość ukrytego przychodu i powinna stać się liczbowym uzasadnieniem inwestycji w przepisywanie zapytań.

Druga rekomendacja adresuje projektowanie danych treningowych dla systemów opartych na modelach językowych, zarówno budowanych wewnętrznie, jak i konfigurowanych przez dostawców wyszukiwarki. Badanie¹ dowodzi, że jakość danych nie jest funkcją ich ilości, lecz funkcją ich reprezentatywności względem docelowego segmentu ruchu. Zbiór 419 806 par wysokiej jakości, wyodrębnionych przez rejection sampling, przewyższał w testach modele trenowane na wielokrotnie większych, lecz niefiltrowanych logach. Operacyjna implikacja jest jednoznaczna: dane treningowe dla modeli przepisywania powinny być aktywnie nadreprezentowane w segmencie ogonowym, przez celowe próbkowanie rzadkich fraz, ręczną annotację dla zapytań bezodbiciowych oraz augmentację przez zadania pomocnicze, które wymuszają na modelu głębsze rozumienie intencji zakupowej, a nie wyłącznie mechaniczne dopasowanie popularnych synonimów.

Trzecia rekomendacja adresuje wybór metryki optymalizacji w procesie wyrównania modelu z celami biznesowymi. Badanie¹ dokumentuje wyraźne napięcie między trafnością a przyrostem zasięgu: optymalizacja jednej metryki degraduje drugą, a wybór konfiguracji powinien wynikać z charakteru asortymentu i fazy wzrostu sklepu. Dla platform w fazie ekspansji, gdzie katalog jest szeroki, a konwersja z długiego ogona pozostaje nieeksplorowana, właściwą strategią jest priorytetyzacja increment, nawet kosztem marginalnego spadku trafności. Dla sklepów premium z precyzyjnym, wąskim asortymentem właściwą hierarchią jest odwrotna, gdyż błędne przepisanie jest tu kosztowniejsze niż pominięcie ogona. Decyzja ta powinna być podejmowana świadomie i weryfikowana przez testy A/B, a nie jako domyślna konfiguracja dostawcy, ponieważ, jak pokazują tabele badania¹, różne konfiguracje tej samej architektury przynoszą radykalnie odmienne wyniki w zależności od segmentu ruchu.

Źródła

Peng Wenjun, Li Guiyang, Jiang Yue, Wang Zilong, Ou Dan, Zeng Xiaoyi, Xu Derong, Xu Tong, Chen Enhong. Large Language Model based Long-tail Query Rewriting in Taobao Search. WWW '24 Companion, ACM, 2024.

Rekomendowane

Zhejiang Wanli Univ.

Badanie | Zhejiang Wanli Univ.

Luka badawcza: rekomendacje dla lojalnych vs wzrost marek

Analiza 12 481 artykułów (2014–2023) ujawnia, że agenda badawcza e-commerce skupia się na rekomendacjach i lojalności, ignorując penetrację kategorii — główny mechanizm wzrostu marki.

4 min czytania Czytaj

Mo RiGen, Wang Shao-bu. E-commerce Research in the Past Decade: A Bibliometric Analysis. SAGE Open, 2025. Sharp Byron. How Brands Grow: What Marketers Don't Know. Oxford University Press, 2010. Ehrenberg Andrew, Uncles Mark, Goodhardt Gerald. Understanding Brand Performance Measures: Using Dirichlet Benchmarks. Journal of Business Research, 2004.

ASE Bucharest

Badanie | ASE Bucharest

Paradoks literatury AI: wzrost badań kontra wskaźnik wycofań

44,65% roczny wzrost badań o AI w e-commerce przy 10,34% wskaźniku retrakcji: szybkość produkcji wiedzy wyraźnie wyprzedza możliwości kontroli jej jakości.

4 min czytania Czytaj

Sandu Andra, Cotfas Liviu-Adrian, Ioanăș Corina, Cișmașu Irina-Daniela, Delcea Camelia. E-Commerce Meets Emerging Technologies: An Overview of Research Characteristics, Themes, and Trends. Journal of Theoretical and Applied Electronic Commerce Research, MDPI, 2025.

GSC Research

Badanie | GSC Research

Paradoks personalizacji: algorytm buduje i niszczy lojalność

Ten sam algorytm, który precyzuje rekomendacje, absorbuje uprzedzenia historyczne i przy zbyt agresywnej personalizacji zamienia postrzeganą usługę w postrzeganą inwigilację.

4 min czytania dla subskrybentów

Raji Mustafa Ayobami, Olodo Hameedat Bukola, Oke Timothy Tolulope, Addy Wilhelmina Afua, Ofodile Onyeka Chrisanctus, Oyewole Adedoyin Tolulope. E-commerce and consumer behavior: A review of AI-powered personalization and market trends. GSC Advanced Research and Reviews, 2024.

MDU Rohtak

Badanie | MDU Rohtak

Trzy dekady AI w e-commerce: analiza 1 458 badań ujawnia

Analiza bibliometryczna 1 458 artykułów (1995–2024): AI w e-commerce skupia się na systemach rekomendacji kosztem etyki algorytmów i zaufania — tematów o najwyższej wartości regulacyjnej.

4 min czytania Czytaj

Chugh Priya, Jain Vishu. Artificial Intelligence (AI) Empowerment in E-Commerce: A Bibliometric Voyage. NMIMS Management Review 32(3), SAGE, 2024.

Skopiuj link

Udostępnij