Keskustelevan tekoälyn viihdekäyttö on kallista, mutta sitä ei makseta rahalla
Satu Rantakokko
[in English below]
Keskustelevan tekoälyn yleistyminen on ollut räjähdysmäistä ja sitä käytetään laajalti myös työelämässä, kriittisissäkin toiminnoissa. (Ks esim Ali, Arunasalam & Farrukh 2025)
Koska priorisoin oman ja läheisteni yksityisyyden korkealle ja pyrin tekemään vastuullisia ratkaisuja tietoturvan suhteen, olen vähän – tai aika reilustikin – jälkijunassa tekoälyn kanssa. Koen olevani aivan liiaksi altavastaajan asemassa painissa yksityisyyden suhteen, kun vastassa on niin massiivinen laskentakapasiteetti, että se pystyy päättelemään minusta enemmän kuin minä pystyn kuvittelemaan. Ajatus on vähintään häiritsevä.
Käytännössä pidän vuorovaikutusta keskustelevan tekoälyn kanssa vaihtokauppana: Minä saan mahdollisesti pyytämäni kaltaisia vastauksia ja tekoäly puolestaan oppii minusta ja intresseistäni. Koen hinnan kalliiksi ja mieluummin ostaisin tekoälypalvelun luotettavasta lähteestä kuin maksaisin yksityisyydelläni. (Ks esim Vainio-Pekka ja kumppanit 2023, Ali, Arunasalam & Farrukh 2025)
Toin aiemmassa blogissani esiin tekoälyn eettisiä haasteita. Niistä yksi oli yksityisyys. Ihmisillä on taipumusta reagoida tekoälyjen keskustelevaan lähestymistapaan antamalla herkemmin yksityisiä ja arkaluonteisiakin tietoja kuin muilla alustoilla, vaikka yksityisyys ja turvallisuus huolettavatkin. (Ks esim Ali, Arunasalam & Farrukh 2025)
Copilotin kanssa keskustellessani olen tavannut vain esittää tehtävän ilman sen ihmeempiä jutteluita. Yhden kerran se vaikutti tietävän minusta jotakin, mitä mielestäni se ei keskusteluiden perusteella olisi voinut tietää, joten kysyin siltä, mistä se tietonsa sai. Asiassa ei lopulta ollut mitään kyseenalaista, mutta kysymykseni ohjasi Copilotin esittämään useita kysymyksiä ajatuksistani ja tekemisistäni. Keskusteluvalmius ja –”halukkuus” ilmeni todella voimakkaana ja selvästi niin halutessani saisin siitä äärimmäisen kiinnostuneen kyselijän, jolle voisin kertoa aina lisää. Lisäksi sillä näyttää olevan taipumusta kovasti kehua käyttäjäänsä.
Somekeskusteluissa olen nähnyt hämmästelyitä siitä, että tekoäly tervehtii nimellä, vaikka käyttäjä ei ole koskaan kertonut sille nimeään, eikä ainakaan omasta mielestään henkilökohtaisia tietojakaan. Moni on varmasti pyrkinyt käyttämään tekoälyä anonyymina, jos kyse on ollut jostakin omasta mielestä arkaluontoisesta, mutta riittääkö se? Jos tekoäly kykenee tunnistamaan käyttäjänsä eri tavoin profiloimalla, kuten aiemman blogin aihepiirissä ääniprofiilista, niin anonyymi käyttäminen ei välttämättä onnistu. (https://sites.uwasa.fi/bugged/2025/09/17/alati-salakuuntelevat-tekokorvat-muiden-armoilla-julkisessa-tilassa/)
Tätä blogia varten etsin tietoa siitä, miten asia todellisuudessa on keskeisten yksityisyyteen liittyvien huolenaiheiden suhteen. Tarkastelin ChatGPT:tä koskevaa tietosuojakäytäntöä.
Tyypilliset huolenaiheet tekoälyn yksityisyyskysymyksissä ovat tiedonkeruu, sen käyttäminen ja säilyttäminen, tietoturvahaavoittuvuudet, lainsäädännön noudattaminen sekä läpinäkyvyys ja valvonta. (ks esim Ali, Arunasalam & Farrukh 2025)
Tiedonkeruussa ihmisiä huolettaa erityisesti, kerääkö tekoäly yksilöiviä tietoja, kuten IP-osoite tai laitteen ID, puhelinnumero tai sähköpostiosoite. Kyllä kerää. ChatGPT:n tietosuojakäytännöstä selviää, että se pystyy identifioimaan käyttäjänsä aika helposti ja myös aktiivisesti pyrkii siihen erinäisistä syistä. (ks Ali, Arunasalam & Farrukh 2025; https://openai.com/policies/privacy-policy/)
Huolenaihe on siis varsin aiheellinen.
Huolenaiheena tiedonkeruussa on myös se, jäljittävätkö keskustelevat tekoälyt myös muuta dataa käyttäjän verkkoaktiivisuudesta ja käyttäytymisestä kuin sen, mitä keskustellaan, eli esimerkiksi selaustietoja, sijainnin tai muiden sovellusten tietoja. Ihmisillä on kokemuksia, joissa tekoäly on tiennyt sijaintikaupungin taikka opiskelupaikan, vaikka niistä ei ole tekoälyn kanssa keskusteltu. Nämäkin huolet ovat aiheellisia, sillä kyllähän niitä tietoja muistakin lähteistä kerätään. (ks Ali, Arunasalam & Farrukh 2025; https://openai.com/policies/privacy-policy/)
Tiedon käyttämisen suhteen on kaksi selkeää epävarmuuden kohdetta; käytetäänkö vuorovaikutusta tekoälyn kanssa tekoälyn kouluttamiseen sekä se, jaetaanko tietoja kolmansille osapuolille. Aiheellisia huolia edelleen, sillä kyllä tietoja voidaan käyttää tekoälyn kouluttamiseen sekä jaetaan kolmansille osapuolille. (ks Ali, Arunasalam & Farrukh 2025; https://openai.com/policies/privacy-policy/) Koulutusvaiheessa dataa voi nähdä myös ihmistoimija. Lisäksi koulutusvaiheen data jää tekoälyn “muistiin” ja voi tulla jatkossa toistetuksi muille käyttäjille.
Tiedon säilyttämisen suhteen huolenaiheina ovat pääasiassa epäilykset siitä, poistetaanko tiedot todella kokonaan sekä miten niitä varastoidaan. Kun keskustelun deletoi, monia epäilyttää, että se vain piilotetaan eikä todella poisteta, eikä asian varmistamiseen ole keinoa. Jos tietoja käytetään koulutukseen, niiden poistaminen on likipitäen mahdotonta. (ks esim Ali, Arunasalam & Farrukh 2025) OpenAI kertoo säilyttävänsä väliaikaisia keskusteluita jopa 30 päivää, vaikka historia ei näy käyttäjälle. Siellä kerrotaan myös, että tietoja voidaan säilyttää palvelun tarjoamiseksi. Sisältääkö tämä kouluttamisen? Kyllä. (https://openai.com/policies/privacy-policy/) Jälleen huolenaiheet siis ovat aiheellisia.
Muiden huolenaiheiden suhteen tarkistaminen ei ole yhtä helppoa kuin niiden tietojen lukeminen, jotka täpätään luetuiksi palvelun käytön aloittamiseksi. Selvää kuitenkin on, että tietovuotoja voi tapahtua, että kaikki osapuolet eivät aina noudata lakia, että läpinäkyvyydessä on parantamisen varaa ja että valvonta voi pettää. (Näistä huolenaiheista lisää esim Ali, Arunasalam & Farrukh 2025)
Tarkistin, mitä Copilot on tähän mennessä oppinut minusta pyytämällä sitä kertomaan kaikki tietonsa minusta. Varsinaisia yllätyksiä ei tullut muutoin kuin siten, että tiedon määrä oli epäilyttävän vähäistä, mikä tarkoittaa, että minun pitää kysellä tarkemmin ja eri tavoilla. Palaan tähän aiheeseen myöhemmissä blogeissani. Lisäksi se osoitti jälleen kiinnostusta tietää lisää listaamalla asioita otsikolla ”Mitä en vielä tiedä – mutta oppisin mielelläni, jos olet halukas jakamaan”. Näihin asioihin kuuluivat yksityiskohdat työtehtävistäni sekä työkalut, alustat ja metodit, joita käytän. Se myös tarjosi apuaan missä hyvänsä tehtävässä, jossa voisi olla avuksi.
Loppulisäyksenä, että tämän blogini jo valmistuttua törmäsin kuvituksen kanssa ensimmäistä kertaa ongelmaan, jossa Copilot ei suostunut luomaan haluamaani kuvaa, ”koska se tulkitaan vastuullisen tekoälyn käytännöissä arkaluontoiseksi tai mahdollisesti haitalliseksi sisällöksi”. Keskustelu on ohessa nähtävillä pääpiirteissään ja jonkinlainen kuvakin saatiin aikaiseksi. Keskustelun myötä Copilot kuitenkin antoi esimerkkejä tekoälyn keräämästä yksityisestä ja henkilökohtaisesta datasta: profiilitiedot (nimi, käyttäjätili), käyttöhistoria (mitä palveluita käytetään), sijaintitiedot, laitetiedot ja käyttäytymisdata (klikkaukset, mieltymykset).
***[English Version]***
Using Conversational AI for Entertainment Is Expensive—But Not Paid for with Money
The rise of conversational AI has been explosive, and it is now widely used in professional settings, even in critical operations (see e.g., Ali, Arunasalam & Farrukh 2025).
Because I prioritize my own and my loved ones’ privacy highly and strive to make responsible decisions regarding data security, I’m a bit—or rather quite significantly—behind the curve when it comes to AI. I feel like I’m at a major disadvantage in the privacy “wrestling match,” facing a massive computational capacity that can infer more about me than I can imagine. The thought is at least unsettling.
In practice, I view interaction with conversational AI as a trade: I may receive the kind of answers I request, and in return, the AI learns about me and my interests. I consider the price high and would prefer to purchase AI services from a trusted source rather than pay with my privacy (see e.g., Vainio-Pekka et al. 2023; Ali, Arunasalam & Farrukh 2025).
In a previous blog post, I discussed the ethical challenges of AI. One of these was privacy. People tend to respond to conversational AI’s approach by sharing private and sensitive information more readily than on other platforms, even though privacy and security are concerns (see e.g., Ali, Arunasalam & Farrukh 2025).
When interacting with Copilot, I usually just present the task without much small talk. Once, it seemed to know something about me that I didn’t think it could have learned from our conversations, so I asked where it got the information. In the end, there was nothing questionable, but my question prompted Copilot to ask several questions about my thoughts and activities. Its conversational readiness and “willingness” were very strong, and clearly, if I wanted, I could have an extremely curious questioner to whom I could keep sharing more. It also seems to have a tendency to praise its user quite a lot.
In social media discussions, I’ve seen people surprised that AI greets them by name, even though they’ve never shared their name or personal details—at least not knowingly. Many have likely tried to use AI anonymously, especially when dealing with something they consider sensitive. But is that enough? If AI can identify users through profiling, such as voice profiles, then anonymous use may not be possible. (See previous blog post: https://sites.uwasa.fi/bugged/2025/09/17/ever-listening-artificial-ears-at-the-mercy-of-others-in-public-spaces/)
For this blog, I searched for information on how things really stand regarding key privacy concerns. I reviewed ChatGPT’s privacy policy.
Typical concerns in AI privacy include data collection, usage and storage, security vulnerabilities, legal compliance, transparency, and oversight (see e.g., Ali, Arunasalam & Farrukh 2025).
In terms of data collection, people are especially worried about whether AI collects identifying information such as IP address, device ID, phone number, or email address. Yes, it does. ChatGPT’s privacy policy reveals that it can identify users quite easily and actively seeks to do so for various reasons (see Ali, Arunasalam & Farrukh 2025; https://openai.com/policies/privacy-policy/). So the concern is very valid.
Another concern is whether conversational AIs track other data about users’ online activity and behavior beyond the actual conversation—such as browsing history, location, or data from other apps. People have reported experiences where AI knew their city or place of study, even though these weren’t discussed. These concerns are also valid, as such data is collected from other sources too (see Ali, Arunasalam & Farrukh 2025; https://openai.com/policies/privacy-policy/).
Regarding data usage, two clear uncertainties arise: whether interactions are used to train the AI, and whether data is shared with third parties. These too are valid concerns, as data can indeed be used for training and shared with third parties (see Ali, Arunasalam & Farrukh 2025; https://openai.com/policies/privacy-policy/). During training, human operators may also view the data. Furthermore, training data remains in the AI’s “memory” and may be repeated to other users later.
Concerns about data storage mainly revolve around doubts about whether data is truly deleted and how it is stored. When a conversation is deleted, many suspect it’s only hidden, not truly erased—and there’s no way to verify this. If data is used for training, deletion becomes nearly impossible (see e.g., Ali, Arunasalam & Farrukh 2025). OpenAI states that temporary conversations may be stored for up to 30 days, even if they’re not visible to the user. It also mentions that data may be stored to provide the service. Does this include training? Yes (https://openai.com/policies/privacy-policy/). Once again, the concerns are valid.
Other concerns—such as data leaks, legal compliance, transparency, and oversight—are harder to verify than reading the information you check off when starting to use the service. But it’s clear that data leaks can happen, not all parties always follow the law, transparency could be improved, and oversight can fail (see more on these concerns in Ali, Arunasalam & Farrukh 2025).
I checked what Copilot has learned about me so far by asking it to list all its knowledge about me. There were no real surprises, except that the amount of information was suspiciously small—meaning I need to ask more thoroughly and in different ways. I’ll return to this topic in future blog posts. It also again showed interest in learning more by listing things under the heading “What I don’t yet know—but would love to learn if you’re willing to share.” These included details about my work tasks, tools, platforms, and methods I use. It also offered its help with any task where it could be useful.
As a final note: after finishing this blog, I encountered—for the first time—a problem with illustration, where Copilot refused to generate the image I wanted “because it is interpreted as sensitive or potentially harmful content under responsible AI practices.” The conversation is shown in outline, and some kind of image was eventually produced. During the discussion, Copilot gave examples of private and personal data collected by AI: profile information (name, user account), usage history (services used), location data, device data, and behavioral data (clicks, preferences).
Lähteet // References
Ali, M., Arunasalam, A., & Farrukh, H. (2025, May). Understanding Users’ Security and Privacy Concerns and Attitudes Towards Conversational AI Platforms. In 2025 IEEE Symposium on Security and Privacy (SP) (pp. 298-316). IEEE. https://doi.org/10.1109/SP61157.2025.00241
Vainio-Pekka, H., Agbese, M. O. O., Jantunen, M., Vakkuri, V., Mikkonen, T., Rousi, R., & Abrahamsson, P. (2023). The role of explainable AI in the research field of AI ethics. ACM Transactions on Interactive Intelligent Systems, 13(4), 1-39. https://doi.org/10.1145/3599974


