Fundament Prawdy. Dlaczego AI to przede wszystkim dane

Sztuczna inteligencja kłamie z uśmiechem na twarzy i absolutną pewnością w głosie. Po dziesiątkach lat pracy w tej branży wiem jedno: to nie algorytm decyduje o sukcesie, lecz ludzie, którzy karmią go danymi.

Kluczowe punkty

Zasada garbage in, garbage out w erze AI staje się groźniejsza niż kiedykolwiek, bo systemy prezentują błędne wyniki z niezachwianą pewnością
Rola inżynierów danych, analityków i architektów nie maleje wraz z rozwojem AI – wręcz przeciwnie, staje się kluczowa dla jakości wyników
Platformy danych jak Microsoft Fabric to narzędzia, nie magiczne rozwiązania – bez świadomego nadzoru człowieka pozostają drogimi składnicami chaosu
Antropomorfizacja AI prowadzi na manowce – systemy nie myślą, nie rozumieją i nie mają intuicji, tylko przetwarzają to, co im damy

Garbage in, garbage out – zasada stara jak informatyka

Kiedy zaczynałem pracę z bazami danych na przełomie tysiącleci, starsi koledzy powtarzali jak mantrę: śmieci na wejściu, śmieci na wyjściu. Wtedy ta zasada oznaczała głównie błędne raporty, przekłamane statystyki sprzedaży czy niepoprawne zestawienia magazynowe. Konsekwencje były nieprzyjemne, ale zazwyczaj szybko wykrywalne. Ktoś zauważył, że liczby się nie zgadzają, ktoś inny zaczął drążyć i docierał do źródła problemu.

Dziś sytuacja wygląda fundamentalnie inaczej. Modele sztucznej inteligencji, nawet te najbardziej zaawansowane, nie rozumieją świata w sposób ludzki. Uczą się wyłącznie na podstawie danych, które otrzymują. Jeśli te dane są niekompletne, zniekształcone lub błędne, wnioski generowane przez system będą równie niedoskonałe. Tyle że teraz te niedoskonałe wnioski są serwowane z niezachwianą pewnością i perfekcyjną retoryką.

Wyobraźmy sobie model analityczny w banku, który ocenia zdolność kredytową. Jeśli historyczne dane zawierają systemowy błąd – powiedzmy, nieprawidłowo zakodowane informacje o spłatach z określonego regionu – model nauczy się tego błędu jako wzorca. Będzie później odrzucał wnioski kredytowe z tego regionu, prezentując swoje decyzje jako obiektywne i oparte na danych. Nikt nie zakwestionuje algorytmu, bo przecież jest naukowy i bezstronny.

W erze klasycznych raportów błędne dane generowały błędne liczby. W erze AI błędne dane generują błędne narracje – i to narracje tak przekonujące, że kwestionowanie ich wymaga odwagi.

Problem polega na tym, że zasada garbage in, garbage out nie zmieniła się ani o jotę. Zmieniła się natomiast nasza percepcja wyjścia. Kiedy raport Excela pokazywał bzdury, ludzie intuicyjnie podchodzili do niego z rezerwą. Kiedy odpowiedź generuje AI, ta sama treść zyskuje aurę autorytetu. Forma przesłania stała się ważniejsza od jego jakości merytorycznej.

Pewność siebie bez pokrycia – ciemna strona AI

Pracuję z systemami bazodanowymi wystarczająco długo, żeby pamiętać czasy, gdy błąd systemu objawiał się komunikatem w stylu Error 1045: Access denied. Było brutalnie, ale uczciwie. System nie wiedział czegoś i wprost o tym informował. Współczesne modele AI wybrały inną strategię komunikacji.

Sztuczna inteligencja potrafi prezentować swoje odpowiedzi z wysokim poziomem pewności niezależnie od tego, czy ma ku temu podstawy. Dla użytkownika końcowego może to sprawiać wrażenie wiarygodności, nawet jeśli w rzeczywistości wynik oparty jest na niepoprawnych przesłankach. System nie sygnalizuje wątpliwości – konsekwentnie rozwija narrację opartą na dostarczonych danych, jakkolwiek wadliwe by nie były.

To zjawisko ma swoją nazwę w literaturze naukowej: halucynacje AI. Ale ta nazwa jest myląca, bo sugeruje jakąś anomalię, chwilowe odchylenie od normy. Tymczasem to nie anomalia – to cecha konstrukcyjna. Model językowy jest zaprojektowany tak, żeby generować płynne, spójne odpowiedzi. Nie jest zaprojektowany tak, żeby mówić nie wiem.

W praktyce DBA widziałem to wielokrotnie. Zespół wdraża chatbota opartego na firmowych dokumentach. Chatbot odpowiada na pytania klientów. Wszystko działa świetnie, dopóki ktoś nie zada pytania, na które w dokumentach nie ma odpowiedzi. Zamiast przyznać się do niewiedzy, system generuje odpowiedź, która brzmi sensownie, jest gramatycznie poprawna i merytorycznie całkowicie zmyślona.

Co gorsza, użytkownik końcowy nie ma żadnych narzędzi, żeby to wychwycić. Nie widzi poziomu pewności modelu. Nie widzi, na jakich danych oparto odpowiedź. Nie widzi, czy system znalazł konkretne źródło, czy po prostu ekstrapolował na podstawie ogólnych wzorców językowych. Dostaje tylko gładką, pewną siebie odpowiedź.

Syndrom eksperta w garniturze

Znam to zjawisko z sal konferencyjnych. Zawsze znajdzie się ktoś, kto mówi płynnie, pewnie i autorytatywnie – nawet gdy nie ma pojęcia o temacie. Ludzie mają naturalną tendencję do ufania takim osobom, a jeszcze jak jest wbity w drogi garnitur to wyrasta do rangi mesjasza. AI działa dokładnie tak samo, tyle że jest w tym jeszcze lepsza. Nie jąka się, nie robi pauz na myślenie, nie zdradza niepewności mową ciała.

To dlatego krytyczna rola weryfikacji danych wejściowych staje się ważniejsza niż kiedykolwiek. Nie możemy polegać na tym, że system sam zasygnalizuje problem. Musimy budować procesy, które zapewnią jakość zanim dane trafią do modelu.

Trójca danych: inżynier, analityk, architekt

W dyskusjach o sztucznej inteligencji często pomija się ludzi, którzy stoją między surowym chaosem informacji a sensownymi decyzjami biznesowymi. A to właśnie oni decydują o tym, czy AI będzie użytecznym narzędziem, czy kosztowną katastrofą.

Inżynierowie danych odpowiadają za jakość, spójność i kontekst informacji trafiających do modeli. To oni projektują pipeline'y, definiują reguły walidacji, dbają o to, żeby dane z różnych źródeł mówiły tym samym językiem. Kiedy system ERP zapisuje datę w formacie DD-MM-YYYY, a aplikacja mobilna w formacie MM/DD/YYYY, to inżynier danych musi to wykryć i znormalizować, zanim ktoś zacznie wyciągać wnioski o sezonowości sprzedaży.

Analitycy nadają danym znaczenie biznesowe. Wiedzą, że kolumna revenue w tabeli transakcji może oznaczać co innego w kontekście sprzedaży B2B i B2C. Rozumieją, że zerowa wartość w polu discount może oznaczać brak rabatu albo błąd w integracji. Potrafią spojrzeć na rozkład danych i powiedzieć: to nie wygląda normalnie, sprawdźcie źródło.

Architekci systemów decydują, gdzie i w jaki sposób sztuczna inteligencja powinna być używana. To oni odpowiadają na pytania: czy ten przypadek użycia wymaga AI, czy wystarczy klasyczne podejście regułowe? Jakie dane są potrzebne? Jakie są konsekwencje błędnej odpowiedzi? Gdzie człowiek musi pozostać w pętli decyzyjnej?

Przez prawie trzydzieści lat w branży widziałem dziesiątki projektów, które upadły nie z powodu złej technologii, ale z powodu braku odpowiednich ludzi. Najlepszy model AI na świecie nie pomoże, jeśli nikt nie zadba o to, czym jest karmiony.

Paradoksalnie, rozwój AI nie zmniejsza zapotrzebowania na te role – wręcz je zwiększa. Im potężniejsze narzędzia, tym większe ryzyko przy błędnych danych. Im bardziej autonomiczne systemy, tym ważniejsza jakość fundamentów, na których działają.

Platformy danych jako fundament, nie magia

Microsoft Fabric, Databricks, Snowflake, Google BigQuery – rynek oferuje dziś imponujący arsenał platform danych. Materiały marketingowe obiecują unified analytics, seamless integration i AI-ready infrastructure. Brzmi świetnie. Problem w tym, że technologia sama w sobie niczego nie rozwiązuje.

Platformy te rzeczywiście pełnią istotną rolę. Integrują dane z wielu, często bardzo zróżnicowanych źródeł: systemów transakcyjnych, aplikacji, strumieni zdarzeń, urządzeń IoT. Tworzą spójne środowisko, w którym dane są przekształcane, wzbogacane i udostępniane dalej do analizy oraz modeli AI. To realna wartość. Sam, zafascynowany tym, co Microsoft Fabric wnosi do ekosystemu danych, postanowiłem poświęcić pierwsze dwa miesiące tego roku na zdobycie certyfikatu Microsoft Fabric Data Engineer i naprawdę zrozumieć tę platformę od środka.

Ale nawet najbardziej zaawansowana technologia nie eliminuje potrzeby nadzoru człowieka. Widziałem wdrożenia Microsoft Fabric, gdzie platforma stała się po prostu bardzo drogim i bardzo skalowalnym śmietnikiem. Dane z dziesiątek źródeł spływały do jednego miejsca bez jakiejkolwiek strategii governance. Nikt nie zdefiniował, co jest źródłem prawdy dla poszczególnych encji. Nikt nie ustalił reguł jakości. Nikt nie wyznaczył właścicieli danych.

Efekt? Analitycy spędzali więcej czasu na szukaniu właściwych danych niż na ich analizie. Modele AI były trenowane na niespójnych zbiorach. Różne raporty pokazywały różne liczby dla tych samych metryk, bo każdy zespół wybierał inne źródło.

Technologia jako wzmacniacz

Platforma danych działa jak wzmacniacz. Jeśli masz dobre procesy, kompetentnych ludzi i jasną strategię – wzmocni to wszystko. Jeśli masz chaos – wzmocni chaos. Szybciej, taniej i na większą skalę.

To inżynierowie danych projektują przepływy, dbają o jakość i spójność informacji. Architekci decydują, które dane mają rzeczywistą wartość i w jaki sposób powinny być wykorzystane. Platforma może scalać i skalować proces, ale to człowiek nadaje mu sens i kontroluje jakość.

Dlatego przed każdym wdrożeniem platformy danych zadaję klientom te same pytania: Kto będzie właścicielem poszczególnych domen danych? Jakie są kryteria jakości? Kto podejmuje decyzję, gdy dane z różnych źródeł są sprzeczne? Jeśli nie potrafią odpowiedzieć, sugeruję, żeby zaczęli od tych pytań, a nie od wyboru technologii.

AI nie myśli – AI przetwarza

To prawdopodobnie najtrudniejsza prawda do zaakceptowania w całej dyskusji o sztucznej inteligencji. Modele AI nie myślą. Nie rozumieją. Nie mają intuicji. Przetwarzają dane według wyuczonych wzorców i generują wyniki, które statystycznie przypominają oczekiwane odpowiedzi.

Antropomorfizacja technologii – przypisywanie jej ludzkich cech – prowadzi na manowce. Kiedy mówimy, że AI rozumie kontekst, podejmuje decyzje czy uczy się na błędach, używamy metafor, które zaciemniają rzeczywisty obraz. Model nie rozumie kontekstu w ludzkim sensie – identyfikuje wzorce w danych, które korelują z określonymi wynikami. Nie podejmuje decyzji – oblicza prawdopodobieństwa. Nie uczy się na błędach – jest retrenowany na nowych danych przez ludzi.

Ta różnica ma praktyczne konsekwencje. Jeśli wierzysz, że AI rozumie Twój biznes, możesz pokusić się o oddanie jej decyzji, które wymagają faktycznego zrozumienia. Jeśli wiesz, że AI tylko przetwarza wzorce, będziesz ostrożniejszy w definiowaniu granic jej autonomii.

Pułapka językowa

Duże modele językowe są szczególnie podatne na tę pułapkę, bo operują ludzkim językiem. Odpowiedzi brzmią jak wypowiedzi inteligentnej osoby. Używają idiomów, budują argumentację, przyznają się do ograniczeń w sposób, który brzmi skromnie i przekonująco.

Ale to wszystko iluzja. Model nie wie, że czegoś nie wie. Generuje tekst, który statystycznie pasuje do kontekstu nie wiem. Czasem ten tekst jest adekwatny, czasem nie. Model nie ma narzędzi, żeby rozróżnić te sytuacje.

Sztuczna inteligencja nie zastępuje człowieka w myśleniu. Wzmacnia decyzje, ale tylko wtedy, gdy opiera się na solidnych danych i świadomym procesie ich przygotowania. W przeciwnym razie może działać z pełną pewnością, generując wyniki spójne formalnie, ale całkowicie oderwane od rzeczywistości.

Ostatecznie liczy się człowiek

Dziesiątki lat w branży danych nauczyło mnie jednego: technologie przychodzą i odchodzą, ale fundamenty pozostają te same. Widziałem erę hurtowni danych, rewolucję Big Data, entuzjazm wokół data lakes, teraz obserwuję eksplozję generatywnej AI. Każda z tych fal przynosiła nowe narzędzia, nowe obietnice i nowe rozczarowania.

Projekty, które odniosły sukces, miały wspólny mianownik: kompetentnych ludzi, którzy rozumieli zarówno technologię, jak i biznes. Ludzi, którzy potrafili powiedzieć nie, gdy presja wdrożenia przewyższała gotowość organizacji. Ludzi, którzy traktowali dane jako strategiczny zasób, a nie techniczny detal.

Projekty, które upadły, też miały wspólny mianownik: wiarę, że technologia sama rozwiąże problemy organizacyjne. Że wystarczy kupić odpowiednią platformę, wdrożyć odpowiedni model i wszystko magicznie zadziała.

Ostatecznie to nie model decyduje o jakości rezultatu, lecz jakość danych i ludzi, którzy za nimi stoją. Ta prawda była aktualna trzydzieści lat temu i będzie aktualna za kolejne trzydzieści.

Dlatego moja rada dla organizacji, które chcą wykorzystać potencjał AI, jest prozaicznie niemodna: zainwestujcie w ludzi. Zbudujcie zespoły, które rozumieją dane. Stwórzcie procesy, które zapewniają jakość. Zdefiniujcie odpowiedzialność za poszczególne domeny informacji. Dopiero potem wybierajcie narzędzia i modele.

AI to potężna technologia. Ale potęga bez kontroli to przepis na katastrofę. A kontrola zaczyna się od danych – od ich jakości, spójności i kontekstu. To jest prawdziwy fundament prawdy w erze sztucznej inteligencji. Nie algorytmy, nie platformy, nie modele. Ludzie i dane, którymi zarządzają.

To może brzmieć jak truizm, ale truizmy mają to do siebie, że są prawdziwe. W świecie, który goni za kolejnymi buzzwordami, czasem warto wrócić do podstaw. Garbage in, garbage out. Stara zasada, nowe konsekwencje. I wciąż aktualna przestroga.

Sztuczna inteligencja jest dokładnie tak dobra jak dane, na których się opiera, i ludzie, którzy te dane przygotowują. Inwestycja w algorytmy bez inwestycji w fundamenty jakości danych to budowanie zamku na piasku. Po trzydziestu latach w branży wiem, że ta prawda nigdy się nie zmieni – zmienią się tylko konsekwencje jej ignorowania.