4 min.

GPT idzie na zakupy: ewaluacja wyszukiwarki produktowej

Abstrakt

Zgodność ocen między dwoma ludzkimi sędziami trafności produktów w e-commerce wynosi od 42% do 49%¹. Model GPT-3.5-turbo osiąga 82%. Ten wynik odwraca logikę ewaluacji wyszukiwarki produktowej: to nie złoty standard ludzkich sędziów wyznacza punkt odniesienia dla automatyzacji — to automatyzacja wyznacza nowy standard. Każdy sklep internetowy, który inwestuje w optymalizację wyszukiwarki produktowej, staje prędzej czy później przed tym samym problemem: skąd wziąć wiarygodne dane o tym, czy wyniki wyszukiwania są trafne. Budowa kolekcji testowej, czyli zbioru zapytań i ręcznie ocenionych par zapytanie–produkt, była przez dekady domeną wyłącznie największych graczy. Twórcy publicznie dostępnego zbioru WANDS poświęcili na annotację 233 000 par zapytanie–produkt ponad 3 500 godzin pracy ludzkich sędziów¹. Dla typowego sklepu o obrotach kilkudziesięciu milionów złotych jest to koszt niedostępny. Badanie Soviero i współpracowników¹ opublikowane na konferencji ECIR 2024 stawia tezę, że ta bariera może zostać usunięta: eksperymenty z GPT-3.5-turbo i GPT-4 pokazują, że modele językowe osiągają około 82% zgodności z ocenami ludzkimi, co paradoksalnie przewyższa typowy poziom zgodności między samymi ludzkimi sędziami wynoszący od 42% do 49%¹. Implikacja jest daleko idąca: narzędzie do rzetelnej, skalowalnej ewaluacji wyszukiwania produktowego staje się dostępne dla organizacji, które dotychczas nie mogły sobie na nie pozwolić.

Zgodność ocen między dwoma ludzkimi sędziami trafności produktów w e-commerce wynosi od 42% do 49%¹. Model GPT-3.5-turbo osiąga 82%. Ten wynik odwraca logikę ewaluacji wyszukiwarki produktowej: to nie złoty standard ludzkich sędziów wyznacza punkt odniesienia dla automatyzacji — to automatyzacja wyznacza nowy standard. Każdy sklep internetowy, który inwestuje w optymalizację wyszukiwarki produktowej, staje prędzej czy później przed tym samym problemem: skąd wziąć wiarygodne dane o tym, czy wyniki wyszukiwania są trafne. Budowa kolekcji testowej, czyli zbioru zapytań i ręcznie ocenionych par zapytanie–produkt, była przez dekady domeną wyłącznie największych graczy. Twórcy publicznie dostępnego zbioru WANDS poświęcili na annotację 233 000 par zapytanie–produkt ponad 3 500 godzin pracy ludzkich sędziów¹. Dla typowego sklepu o obrotach kilkudziesięciu milionów złotych jest to koszt niedostępny. Badanie Soviero i współpracowników¹ opublikowane na konferencji ECIR 2024 stawia tezę, że ta bariera może zostać usunięta: eksperymenty z GPT-3.5-turbo i GPT-4 pokazują, że modele językowe osiągają około 82% zgodności z ocenami ludzkimi, co paradoksalnie przewyższa typowy poziom zgodności między samymi ludzkimi sędziami wynoszący od 42% do 49%¹. Implikacja jest daleko idąca: narzędzie do rzetelnej, skalowalnej ewaluacji wyszukiwania produktowego staje się dostępne dla organizacji, które dotychczas nie mogły sobie na nie pozwolić.

Wyszukiwanie produktowe różni się od klasycznego wyszukiwania dokumentów w sposób, który ma bezpośrednie przełożenie na trudność automatycznej oceny trafności¹. Zapytania użytkownika są krótkie i często pozbawione kontekstu zdaniowego: składają się z kilku słów kluczowych, nazw marek, parametrów technicznych lub nieformalnych opisów potrzeby. Dokumenty, czyli opisy produktów, są równie lakoniczne. Trafność pary zapytanie–produkt zależy przy tym nie od dosłownego pokrycia leksykalnego, lecz od intencji zakupowej, która może być wyrażona całkowicie innym słownictwem niż użyte w nazwie produktu. Badanie wyodrębnia dwie warstwy trudności: tzw. easy instances, gdzie zapytanie i produkt albo współdzielą słowa kluczowe, albo wyraźnie się rozchodzą, oraz hard instances, gdzie relacja między zapytaniem a produktem jest semantyczna, lecz niewidoczna dla prostego dopasowania leksykalnego¹. Podział ten okaże się kluczowy dla zrozumienia zarówno możliwości, jak i ograniczeń podejścia opartego na LLM.

Eksperymenty przeprowadzono na dwóch zbiorach danych celowo wybranych tak, by zmaksymalizować wiarygodność wniosków¹. Zbiór WANDS obejmuje 2 800 par z dziedziny wyposażenia wnętrz opisanych po angielsku i jest publicznie dostępny, co rodzi ryzyko wycieku danych do treningu modeli GPT. Dlatego równolegle zastosowano zbiór Pharma, oparty na prywatnych danych produkcyjnych dużego dostawcy technologii e-commerce, zawierający zapytania w języku portugalskim dotyczące apteki internetowej — zbiór ten GPT z całą pewnością nie widział podczas treningu¹. Strategie promptowania obejmowały cztery warianty: wytyczne stworzone przez człowieka, wytyczne wygenerowane przez sam LLM na podstawie 200 annotowanych przykładów, wersje z dziesięcioma przykładami w prompcie (ten-shot) oraz bez nich (zero-shot). Wyniki oceniano metrykami accuracy i Cohen's κ, przy czym temperatura modelu była ustawiona na zero w celu zapewnienia reprodukowalności¹.

Wyniki główne potwierdzają tezę o użyteczności LLM jako sędziego trafności z niezwykłą konsekwencją¹. GPT-4 osiągnął dokładność sięgającą 85% i współczynnik κ = .70, podczas gdy GPT-3.5-turbo, kosztujący dwudziestokrotnie mniej, uzyskał wyniki zbliżone i w kilku konfiguracjach przewyższył droższego konkurenta. Dla porównania, model XLM-RoBERTa trenowany nadzorowanie na tych samych 200 przykładach osiągnął jedynie accuracy = .67 i κ = .35 na zbiorze WANDS, czyli wyniki o 30 punktów procentowych gorsze pod względem κ niż najlepsze konfiguracje LLM¹. Szczególnie istotna jest obserwacja dotycząca trudnych przypadków: na easy instances oba modele GPT osiągają około 90% dokładności, natomiast na hard positives, czyli parach semantycznie trafnych ale pozbawiony wspólnych słów, wyniki spadają do około 52%¹. Ten rezultat wyznacza granicę praktycznej użyteczności metody i jest informacją, którą każdy wdrożeniowiec powinien wziąć pod uwagę przy projektowaniu procesu ewaluacji.

Drugą, równie ważną kontrybucją badania jest eksperyment dotyczący automatycznego generowania wytycznych annotacyjnych¹. Tworzenie precyzyjnych instrukcji dla ludzkich adnotatorów jest zadaniem żmudnym i wymagającym wiedzy domenowej: wytyczne do oceny trafności wyszukiwarki Google obejmują ponad 170 stron dokumentacji. Autorzy badania sprawdzili, czy LLM może wygenerować własne wytyczne, dostarczając modelowi 200 annotowanych par jako materiał źródłowy, a następnie używając tych wytycznych do dalszej annotacji. Wyniki okazały się zaskakująco mocne: annotacje uzyskane na podstawie wytycznych wygenerowanych przez LLM osiągnęły wyniki nieodróżnialne statystycznie od annotacji opartych na wytycznych ludzkich, a w konfiguracji GPT-4 z dziesięcioma przykładami na zbiorze Pharma wytyczne LLM wygenerowały nawet najlepszy wynik w całym eksperymencie¹. Implikacja operacyjna jest czytelna: do uruchomienia procesu ewaluacji wystarcza zbiór kilkuset annotowanych par, bez potrzeby angażowania eksperta domenowego do tworzenia instrukcji.

Praktyczne rekomendacje

Pierwsza rekomendacja dotyczy priorytetyzacji inwestycji w ewaluację jako warunku koniecznego skutecznej optymalizacji wyszukiwarki. Sklepy online często inwestują w nowe algorytmy rankingowe lub integracje z zewnętrznymi wyszukiwarkami bez możliwości zmierzenia, czy zmiana faktycznie poprawiła doświadczenie użytkownika. Badanie¹ pokazuje, że zbudowanie pierwszej kolekcji testowej jest dziś realistycznym zadaniem: wystarczy zebrać około 200 par zapytanie–produkt z bieżących logów wyszukiwania, ręcznie je annotować jako punkt startowy, a następnie użyć GPT-3.5-turbo do rozszerzenia zbioru o kolejne tysiące ocen. Koszt annotacji tysiąca par przez API GPT-3.5-turbo wynosi ułamek kosztu jednej roboczogodziny ludzkiego annotora. Tak zbudowany zbiór testowy pozwala mierzyć wpływ każdej kolejnej zmiany w wyszukiwarce w sposób powtarzalny i porównywalny w czasie.

Druga rekomendacja adresuje projektowanie procesu promptowania i dotyczy dwóch praktycznych pułapek zidentyfikowanych w badaniu¹. Po pierwsze, temperatura modelu powinna być ustawiona na zero, co eliminuje losowość odpowiedzi i czyni wyniki reprodukowalnymi. Po drugie, modele GPT nie powinny otrzymywać wielu par zapytanie–produkt do oceny w jednym prompcie: badanie wykazało, że przesyłanie wielu krotek jednocześnie degraduje współczynnik κ do poziomu bliskiego przypadkowi, gdyż autoregresywna natura modelu warunkuje kolejne annotacje poprzednimi. Każdą parę należy oceniać osobno. Optymalną konfiguracją jest połączenie wytycznych, czy to ludzkich czy wygenerowanych przez LLM, z dziesięcioma przykładami w prompcie (ten-shot), co we wszystkich konfiguracjach daje wyniki porównywalne z lub lepsze niż samo zero-shot¹.

Trzecia rekomendacja dotyczy świadomego zarządzania ograniczeniami metody. Wynik ~52% dokładności na hard positives oznacza, że LLM systematycznie nie docenia produktów semantycznie trafnych, lecz opisanych słownictwem odległym od zapytania¹. Dla sklepów z szerokim katalogiem i niestandardową nomenklaturą produktową, na przykład w branży technicznej lub medycznej, ten segment jest szczególnie ważny i nie może być oceniany wyłącznie przez LLM bez dodatkowej weryfikacji. Rekomendowanym podejściem jest hybrydowy proces ewaluacji: LLM jako pierwsza linia oceny dla przypadków łatwych i standardowych, a ręczna weryfikacja eksperta dla par z niskim poziomem pewności modelu lub z dziedzin wymagających specjalistycznej wiedzy. Taki podział redukuje koszt annotacji o 80 do 90 procent, zachowując jednocześnie jakość dla krytycznych segmentów katalogu.

Źródła

  1. Soviero Beatriz, Kuhn Daniel, Salle Alexandre, Moreira Viviane P. ChatGPT Goes Shopping: LLMs Can Predict Relevance in eCommerce Search. Advances in Information Retrieval, ECIR 2024, Springer, 2024.

Rekomendowane

Zhejiang Wanli Univ.
Badanie | Zhejiang Wanli Univ.

Luka badawcza: rekomendacje dla lojalnych vs wzrost marek

Analiza 12 481 artykułów (2014–2023) ujawnia, że agenda badawcza e-commerce skupia się na rekomendacjach i lojalności, ignorując penetrację kategorii — główny mechanizm wzrostu marki.

4 min czytania Czytaj

Mo RiGen, Wang Shao-bu. E-commerce Research in the Past Decade: A Bibliometric Analysis. SAGE Open, 2025. Sharp Byron. How Brands Grow: What Marketers Don't Know. Oxford University Press, 2010. Ehrenberg Andrew, Uncles Mark, Goodhardt Gerald. Understanding Brand Performance Measures: Using Dirichlet Benchmarks. Journal of Business Research, 2004.

ASE Bucharest
Badanie | ASE Bucharest

Paradoks literatury AI: wzrost badań kontra wskaźnik wycofań

44,65% roczny wzrost badań o AI w e-commerce przy 10,34% wskaźniku retrakcji: szybkość produkcji wiedzy wyraźnie wyprzedza możliwości kontroli jej jakości.

4 min czytania Czytaj

Sandu Andra, Cotfas Liviu-Adrian, Ioanăș Corina, Cișmașu Irina-Daniela, Delcea Camelia. E-Commerce Meets Emerging Technologies: An Overview of Research Characteristics, Themes, and Trends. Journal of Theoretical and Applied Electronic Commerce Research, MDPI, 2025.

GSC Research
Badanie | GSC Research

Paradoks personalizacji: algorytm buduje i niszczy lojalność

Ten sam algorytm, który precyzuje rekomendacje, absorbuje uprzedzenia historyczne i przy zbyt agresywnej personalizacji zamienia postrzeganą usługę w postrzeganą inwigilację.

4 min czytania dla subskrybentów

Raji Mustafa Ayobami, Olodo Hameedat Bukola, Oke Timothy Tolulope, Addy Wilhelmina Afua, Ofodile Onyeka Chrisanctus, Oyewole Adedoyin Tolulope. E-commerce and consumer behavior: A review of AI-powered personalization and market trends. GSC Advanced Research and Reviews, 2024.

MDU Rohtak
Badanie | MDU Rohtak

Trzy dekady AI w e-commerce: analiza 1 458 badań ujawnia

Analiza bibliometryczna 1 458 artykułów (1995–2024): AI w e-commerce skupia się na systemach rekomendacji kosztem etyki algorytmów i zaufania — tematów o najwyższej wartości regulacyjnej.

4 min czytania Czytaj

Chugh Priya, Jain Vishu. Artificial Intelligence (AI) Empowerment in E-Commerce: A Bibliometric Voyage. NMIMS Management Review 32(3), SAGE, 2024.

Skopiuj link
Udostępnij