4 min.

PP-GLAM: granice modeli językowych w wyszukiwaniu e-commerce

Abstrakt

Klasyfikacja trafności wyszukiwania produktowego wydaje się z pozoru bliska standardowym zadaniom rozumienia języka naturalnego: mając zapytanie użytkownika i opis produktu, model powinien ocenić, czy para jest trafna. Jednak głębszy wgląd w dane e-commerce ujawnia cztery jakościowo różne klasy relacji, które badanie Choudhary i współpracowników¹ określa skrótem ESCI: produkt dokładnie odpowiadający zapytaniu (exact), produkt będący zamiennikiem (substitute), produkt komplementarny (complement) i produkt nieistotny (irrelevant). Klasyfikacja tych czterech klas wymaga nie tylko rozumienia semantyki tekstu, lecz przede wszystkim wiedzy o intencji zakupowej, która rzadko wynika wprost z dosłownego znaczenia słów. Opublikowane na konferencji WWW 2024 badanie¹ demonstruje, że modele językowe osiągają w tym zadaniu dokładność 84-86%, lecz granica ich możliwości jest strukturalna. Przełomem jest dopełnienie semantyki grafami sygnałów behawioralnych, czyli historii interakcji klientów z produktami. Framework PP-GLAM, łączący modele językowe z grafowymi sieciami neuronowymi przez interpretowalny zespół GBDT, podnosi dokładność do 90,45% przy macro-F1 wynoszącym 82,36%, przewyższając zarówno samodzielne modele językowe, jak i własnościowy model SALAM łączący wcześniej LM z GNN w sposób nieinterpretowalny.

Klasyfikacja ESCI odzwierciedla rzeczywisty problem, z jakim mierzy się każda platforma e-commerce przy rankingowaniu wyników wyszukiwania¹. Para oznaczona jako "exact" powinna zajmować szczyt listy wyników, pary "substitute" i "complement" mogą być użyteczne w określonym kontekście zakupowym, a pary "irrelevant" powinny być odfiltrowane, gdyż ich obecność pogarsza doświadczenie użytkownika i redukuje konwersję. Trudność zadania wynika z natury samego materiału: zapytania e-commerce składają się przeciętnie z kilku słów kluczowych, a opisy produktów, choć dłuższe, zawierają mieszaninę terminologii technicznej, nazw własnych i sformułowań marketingowych. Model językowy widzi jedynie tę powierzchnię tekstową i nie ma dostępu do informacji o tym, jakie produkty klienci kupują razem, jakie zastępują sobie nawzajem w koszyku, ani jakie jest historyczne zachowanie konwersyjne danej pary. Badanie¹ potwierdza tę granicę empirycznie na zbiorze liczącym około dwóch milionów par zapytanie-produkt z trzech regionów geograficznych i językowych: DeBERTa osiąga 70,00% macro-F1, a BigBird 74,40%, co oznacza, że jeden na cztery przypadki jest klasyfikowany błędnie nawet przez najlepsze modele czysto językowe.

Framework PP-GLAM¹ odpowiada na tę granicę przez architekturę modułową, której projektowanie rozwiązuje trzy praktyczne problemy jednocześnie. Zbiór danych jest wielojęzyczny i wieloregionalny, co sprawia, że żaden pojedynczy model językowy nie jest optymalny dla wszystkich par: DeBERTa sprawdza się lepiej dla angielskiego, M-DeBERTa dla pozostałych języków, a BigBird radzi sobie z długimi opisami produktów dzięki mechanizmowi uwagi typu sparse. Zamiast wybierać jeden model, PP-GLAM trenuje wszystkie równolegle i traktuje ich predykcje jako cechy wejściowe dla zespołu GBDT. Opisy produktów są przy tym zbyt długie dla standardowych okien kontekstowych LM, dlatego moduł de-noising oparty na TF-IDF redukuje opis do najbardziej informatywnych tokenów przed tokenizacją. Wreszcie, zapytania rotują w tempie 20-25% miesięcznie, co sprawia, że kosztowne przetrenowanie całego modelu przy każdej aktualizacji danych jest niepraktyczne: modułowość PP-GLAM pozwala dodawać i usuwać kandydatów LM oraz GNN bez wpływu na pozostałe komponenty, a miesięczny cykl aktualizacji dotyczy jedynie modeli kwalifikowanych przez selekcję opartą na wartościach SHAP.

Jednym z najbardziej nieoczekiwanych odkryć badania¹ jest odwrotna relacja między gęstością sygnału behawioralnego a jego korelatem z etykietami ESCI. Zbiór danych zawiera 76,6 miliona krawędzi reprezentujących pięć rodzajów interakcji: kliknięcia stanowią 49,86% wszystkich krawędzi, wyświetlenia 40,15%, dodania do koszyka 5,25%, zakupy 1,93% i konsumpcje zaledwie 0,17%. Intuicja podpowiada, że kliknięcia, jako najgęstszy sygnał, powinny być najbardziej wartościowe dla modelu. Dane obalają to przekonanie: sygnały rzadkie, czyli dodania do koszyka i zakupy, wykazują silną korelację z etykietami ESCI, podczas gdy kliknięcia i wyświetlenia mają korelację niską. Mechanizm tego zjawiska jest logiczny: kliknięcie jest słabą deklaracją zainteresowania, które może wynikać z ciekawości, błędnego wyświetlenia lub eksploracji, natomiast dodanie do koszyka lub zakup są silnym sygnałem intencji zakupowej i rzeczywistego dopasowania produktu do potrzeby klienta. Ta hierarchia sygnałów ma bezpośrednie implikacje dla projektowania infrastruktury danych behawioralnych: gęstość sygnału nie jest synonimem jego wartości informacyjnej.

Wyniki eksperymentalne potwierdzają, że zintegrowanie sygnałów behawioralnych przez grafy GNN przekłada się na mierzalną przewagę¹. PP-GLAM osiąga 90,45% dokładności i 82,36% macro-F1 na zbiorze US, podczas gdy najlepszy samodzielny model językowy BigBird osiąga 86,58% i 74,40%, a model SALAM łączący LM z GNN w latentnej przestrzeni osiąga 83,82% i 67,17%. Analiza wartości SHAP ujawnia precyzyjną hierarchię udziałów poszczególnych komponentów: modele LM odpowiadają za 16-31% udziału każdy, heterogeniczny graf łączący wszystkie relacje za 33%, a silne sygnały behawioralne adds i purchases za 9-10% każdy. Słabe sygnały, takie jak wyświetlenia, wnoszą jedynie 3%. Na tej podstawie autorzy konstruują zredukowany wariant PP-GLAM (Red), ograniczający się do DeBERTy, BigBirda i GraphSage z heterogenicznym grafem. Redukcja parametrów wynosi 57,8% przy spadku wydajności o zaledwie 1,6 punktu procentowego. Fakt, że selekcja ta jest możliwa bez przetrenowania kandydatów, lecz wyłącznie przez analizę wartości SHAP, stanowi argument za interpretowalną architekturą zespołową w środowiskach produkcyjnych o ograniczonych zasobach obliczeniowych.

Praktyczne rekomendacje

Pierwsza rekomendacja wynika bezpośrednio z paradoksu gęstości zidentyfikowanego w badaniu¹ i dotyczy projektowania infrastruktury zbierania danych behawioralnych. Sklepy internetowe konfigurujące śledzenie interakcji klientów często optymalizują dostępność i wolumen danych, co prowadzi do priorytetyzacji zdarzeń klikalnych. Tymczasem sygnały o najwyższej wartości predykcyjnej, czyli dodania do koszyka, zakupy i konsumpcje, są rzadkie i wymagają aktywnej polityki retencji: przechowywania w wyższej rozdzielczości, z dłuższym horyzontem historycznym i z zachowaniem kontekstu zapytania poprzedzającego transakcję. Każda platforma posiadająca te dane w jakości produkcyjnej ma przewagę, której gęstość logów klikalnych nie zastąpi. W praktyce oznacza to konieczność rewizji pipeline'u analitycznego pod kątem tego, które zdarzenia są przechowywane i jak długo, zanim zostaną zanonimizowane lub zagregowane do niższej rozdzielczości.

Druga rekomendacja adresuje architekturę systemów ML wdrażanych w środowiskach, gdzie dane zmieniają się w sposób ciągły. Monolityczna architektura modelu, w której wszystkie komponenty trenowane są łącznie, jest pułapką przy 20-25% miesięcznym wskaźniku rotacji zapytań¹. Modułowy zespół umożliwia selektywne aktualizacje: nowy model LM można dodać bez wpływu na wytrenowane grafy GNN, a selekcja oparta na wartościach SHAP pozwala zastąpić najsłabszy komponent nowym kandydatem bez przetrenowania pozostałych. Ta filozofia projektowania obniża zarówno koszt operacyjny, jak i ryzyko regresji przy każdej aktualizacji, co jest szczególnie istotne dla platform bez dedykowanego zespołu ML zdolnego do cyklicznego przetrenowania pełnego modelu.

Trzecia rekomendacja adresuje wartość interpretowalności jako narzędzia zarządzania modelem w produkcji. Badanie¹ demonstruje, że wartości SHAP pozwoliły skompresować model o 57,8% przy 1,6% straty wydajności, a informacja ta nie wymagała dodatkowych eksperymentów ani przetrenowania. Dla organizacji, które wdrożyły modele wyszukiwania lub rekomendacji i stają przed pytaniem o alokację zasobów obliczeniowych, interpretowalność dostarcza mierzalnego uzasadnienia decyzji: które komponenty modelu zachować, a które usunąć lub zastąpić nowszymi alternatywami. Jest to szczególnie istotne w kontekście wyszukiwarek wielojęzycznych, gdzie różne regiony mogą wymagać różnych konfiguracji modeli językowych, a interpretowalna selekcja pozwala dostosować te konfiguracje do lokalnych danych bez generowania kosztów przetrenowania całego systemu.

Źródła

Choudhary Nurendra, Huang Edward W, Subbian Karthik, Reddy Chandan K. An Interpretable Ensemble of Graph and Language Models for Improving Search Relevance in E-Commerce. WWW '24 Companion, ACM, 2024.

Rekomendowane

Zhejiang Wanli Univ.

Badanie | Zhejiang Wanli Univ.

Luka badawcza: rekomendacje dla lojalnych vs wzrost marek

Analiza 12 481 artykułów (2014–2023) ujawnia, że agenda badawcza e-commerce skupia się na rekomendacjach i lojalności, ignorując penetrację kategorii — główny mechanizm wzrostu marki.

4 min czytania Czytaj

Mo RiGen, Wang Shao-bu. E-commerce Research in the Past Decade: A Bibliometric Analysis. SAGE Open, 2025. Sharp Byron. How Brands Grow: What Marketers Don't Know. Oxford University Press, 2010. Ehrenberg Andrew, Uncles Mark, Goodhardt Gerald. Understanding Brand Performance Measures: Using Dirichlet Benchmarks. Journal of Business Research, 2004.

ASE Bucharest

Badanie | ASE Bucharest

Paradoks literatury AI: wzrost badań kontra wskaźnik wycofań

44,65% roczny wzrost badań o AI w e-commerce przy 10,34% wskaźniku retrakcji: szybkość produkcji wiedzy wyraźnie wyprzedza możliwości kontroli jej jakości.

4 min czytania Czytaj

Sandu Andra, Cotfas Liviu-Adrian, Ioanăș Corina, Cișmașu Irina-Daniela, Delcea Camelia. E-Commerce Meets Emerging Technologies: An Overview of Research Characteristics, Themes, and Trends. Journal of Theoretical and Applied Electronic Commerce Research, MDPI, 2025.

GSC Research

Badanie | GSC Research

Paradoks personalizacji: algorytm buduje i niszczy lojalność

Ten sam algorytm, który precyzuje rekomendacje, absorbuje uprzedzenia historyczne i przy zbyt agresywnej personalizacji zamienia postrzeganą usługę w postrzeganą inwigilację.

4 min czytania dla subskrybentów

Raji Mustafa Ayobami, Olodo Hameedat Bukola, Oke Timothy Tolulope, Addy Wilhelmina Afua, Ofodile Onyeka Chrisanctus, Oyewole Adedoyin Tolulope. E-commerce and consumer behavior: A review of AI-powered personalization and market trends. GSC Advanced Research and Reviews, 2024.

MDU Rohtak

Badanie | MDU Rohtak

Trzy dekady AI w e-commerce: analiza 1 458 badań ujawnia

Analiza bibliometryczna 1 458 artykułów (1995–2024): AI w e-commerce skupia się na systemach rekomendacji kosztem etyki algorytmów i zaufania — tematów o najwyższej wartości regulacyjnej.

4 min czytania Czytaj

Chugh Priya, Jain Vishu. Artificial Intelligence (AI) Empowerment in E-Commerce: A Bibliometric Voyage. NMIMS Management Review 32(3), SAGE, 2024.

Skopiuj link

Udostępnij