Twoje API to nie ich dataset
Jak hostować swoją aplikację bez podarowania pomysłu Big Tech — i co tak naprawdę jest w drobnym druczku amerykańskich hyperscalerów.
Zbudowałeś. Wystawiłeś. Doszlifowałeś przez sześć tygodni. Wreszcie wystartowała.
Trzy miesiące później widzisz funkcję u konkurencji — tę, którą jeszcze nikt poza Twoimi klientami nie powinien znać.
Skąd wyciekła? Z Twojego serwera.
Ich T&C, Twoja niespodzianka
Większość developerów hostujących na AWS, GCP czy Azure czyta T&C tylko raz — gdy klika „I agree" w 2018. A drobny druczek żył dalej i czasem aktualizował się retroaktywnie.
W typowych umowach hyperscalerów znajdziesz klauzule pozwalające im:
- Skanować dane in-transit — formalnie pod hasłem anti-malware, kompliancji, „service quality"
- Zachowywać metadane ruchu sieciowego (kto, kiedy, ile, do kogo) — czasem lata wstecz
- Współpracować z organami ścigania w trybie obowiązkowym — szczególnie pod CLOUD Act USA
- Wykorzystywać „anonimizowane dane operacyjne" do trenowania modeli ML
Każdy z tych punktów ma legalne uzasadnienie. Każdy z nich oznacza, że Twoja aplikacja nie jest tylko Twoja.
Co naprawdę robi Big Tech
Pamiętasz aferę z Gmail Smart Reply, którego ML modele trenowano na korespondencji użytkowników? Pamiętasz GitHub Copilot, który nauczył się na publicznym kodzie milionów developerów (część którego była pod GPL — nigdy nie potwierdzili, że respektują licencje)?
To nie jest spisek. To biznes opłacalny tylko dlatego, że scale = darmowy dataset.
Twoja aplikacja postawiona na Compute Engine to dla Google nie tylko klient ($5/mc), ale i potencjalny train-time data point. Jak budujesz nowy AI agent, prompt patterns użytkowników i strukturę request/response zna ten, który dostarcza infrastrukturę.
„Anonimizacja" to słowo-wytrych. Trzy nieanonimizowane query patterns + timestamp + IP daje 80% wydajność rekonstrukcji oryginalnych użytkowników w typowym SaaS.
— badanie MIT CSAIL, 2023
Sovereign cloud — trzecia opcja
Jest droga środkowa: hosting na infrastrukturze, która ma kontraktowy zakaz użycia Twoich danych do innych celów.
Tak działa whitesky.cloud, na której stoi SimpleCloud. W ich umowie z każdym MSP partnerem (jak my) jest twardy zapis:
„Customer data shall not be used, processed, analyzed, or shared for any purpose other than fulfilling the contracted service."
Brak miejsca na „anonimizację", brak miejsca na „service improvement", brak luki na ML training. Dane Twoich klientów = tylko Twoje.
Praktyczna check-lista
Zanim wrzucisz aplikację na hosting, sprawdź te pięć rzeczy w T&C providera:
- Czy umowa pozwala providerowi skanować Twoje dane? Szukaj fraz:
may inspect,for security purposes,service improvement. - Czy provider podlega CLOUD Act? US-based + dowolne biuro w USA = TAK. EU-only headquartered (np. OVH, Hetzner, whitesky) = NIE.
- Czy są klauzule o ML training? Szukaj:
may use anonymized data for model traininglubservice operations data. - Czy są data residency guarantees? Czy dane FIZYCZNIE zostają w EU. „Eligible to be stored in EU" to nie to samo co „will be stored in EU".
- Czy mają subprocesory poza EU? CDN, cache, log aggregation często leci do US — nawet jeśli „region" jest europejski.
Każdy „TAK" w pierwszych trzech punktach = ryzyko, że Twój pomysł nie jest tylko Twój.
TL;DR. Jeśli Twoja aplikacja przetwarza cokolwiek wartego ukradnięcia (pomysł, dane klientów, IP) — nie hostuj na infrastrukturze, której właściciel ma kontraktowe prawo to czytać. Sovereign cloud kosztuje tyle samo co AWS, ale T&C są napisane na Twoją korzyść.
SimpleCloud sign-off
Hostujemy na sovereign cloud (whitesky.cloud Poland). Polski datacenter w Warszawie. Klauzula no-use w umowie, którą przekazujemy dalej w naszej. Możemy też postawić serwer fizycznie u Ciebie, jeśli „polski DC" to dla Ciebie wciąż za blisko amerykańskich rąk.
Dane Twoich klientów = tylko Twoje. Na piśmie.