UcLouvain ve Imperial araştırmasına göre; kişisel verileri anonim hale getirme yöntemleri, bireyleri; kimliklerinin yeniden tanımlanması riskiyle karşı karşıya bırakıyor.
AB Genel Veri Koruma Tüzüğü (GDPR) ihlalleri yüzünden ilk büyük para cezaları ardı ardına verilmeye devam ederken araştırmacılar, anonim veri kümelerinin bile bir tür yapay zeka olan makine öğrenimi (machine learning) ile geriye doğru izinin sürülebileceğini gösteriyor.
Nature Communications’da yayımlanan makalede, ‘yapay zeka’ algoritmalarını eğitmek gibi istatistiki amaçlarla verilerin kullanılmasına izin verilirken gizliliği korumanın sadece gürültü eklemek, veri setlerini örneklemek veya diğer kişisel verileri anonim hale getirme tekniklerinden daha fazlasını gerektirdiği belirtiliyor.
Ayrıca, içinde bulundukları veri kümesi anonimleştirilerek verinin küçük bir kısmı paylaşılsa dahi insanların ne derecede izleneceklerini anlamalarını sağlayan bir tanıtım aracı yayımladılar.
Uzmanlar; elde ettikleri bulguların anonimleştirmenin nasıl yapılacağına karar veren düzenleyicilerin kuralları zorlaştırmaları için çağrı niteliğinde olduğunu belirtiyor.
Şirketler ve hükümetler kişisel verilerimizi rutin olarak topluyor ve işliyor. Verilerimiz, KVKK, GDPR veya ABD’nin Kaliforniya Tüketici Gizlilik Yasası (CCPA) gibi ilgili veri koruma yasalarıyla korunuyor.
Veriler “örneklenir” ve isim ve e-posta adresleri gibi özelliklerin çıkarılması ile anonimleştirilir ve böylece bireyler teorik olarak tanımlanamaz. Bu işlemden sonra veriler artık veri koruma yönetmeliklerine tabi değildir. Dolayısıyla reklam şirketleri ve veri brokerleri gibi üçüncü şahıslarca serbestçe kullanılabilir ve satılabilirler.
Ancak araştırmalar, bir kez satın alındığında verilerin anonimleştirme tekniklerine rağmen bireyleri yeniden tanımlamak için makine öğrenimi kullanılarak tersine çevrilebileceğini gösteriyor.
Makalede, “anonim hale getirilmiş” veri setlerinde yer alan Amerikalıların yüzde 99.98’inin, yaş, cinsiyet ve medeni durum gibi sadece 15 özellik kullanılarak doğru bir şekilde yeniden tanımlandığı belirtiliyor.
UCLouvain yazarlarından Dr. Luc Rocher şunları söylüyor: “Otuz yaşlarında, erkek ve New York’ta yaşayan bir çok insan bulunabilirken bunların çok çok daha azı 5 Ocak’ta doğmuş, kırmızı bir spor araba kullanmakta, iki kız babası ve bir köpekle yaşamaktadır. ”
Bu durumu, kişisel olarak tanımlanmış bireyler hakkında hassas bilgileri teşhir edebilir ve alıcıların bireyler hakkında giderek daha da kapsamlı kişisel profiller oluşturmasına olanak sağlayabilir.
New York Times gazetecilerinin Mayıs 2019’da Donald Trump’ın 1985-94 vergi beyannamelerini ifşa etmeleri anonim verilerin yeniden tanımlanmasına bir örnek teşkil etmektedir. Gazeteciler Donald Trump’ın vergi beyannamelerini bulmak için geliştirilmiş gizli verileri tersine çevirmeyi başardı.
Araştırma, eksik veri setleriyle bile ilk defa bunun ne kadar kolay ve doğru bir şekilde yapılabileceğini gösteriyor.
Kişisel Verileri Anonim Hale Getirmenin Yetersiz Olduğuna Bir İspat
Makalenin yanı sıra, araştırmacılar, bir bireyin özelliklerinin milyarlarca nüfustan yalnızca bir kişiyi tanımlayacak kadar kesin olma olasılığını değerlendirmek için bir makine öğrenme aracı yayımladılar.
Ayrıca, verileri kaydetmeyen, yalnızca tanıtım amaçlı olan ve kullanıcıların hangi özelliklerin veri kümelerinde onları benzersiz kıldığını görmelerine yardımcı olmalarını sağlayan çevrimiçi bir araç geliştirdiler.
Bu araç, önce profillerin herhangi bir anonim veri setinde yeniden tanımlanması olasılığını vermeden önce, Posta (İngiltere) veya ZIP (ABD) kodlarının, cinsiyetlerinin ve doğum tarihlerinin ilk bölümlerinin girmenizi ister. Daha sonra yeniden hesaplama yapmadan önce medeni halinizi, araç sayınızı, ev sahipliğini ve çalışma durumunu sorar. Daha fazla özellik ekleyerek, bir eşleşmenin doğru olma olasılığı çarpıcı biçimde artar.
Imperial’ın Bilgi İşlem Dairesi ve Veri Bilimi Enstitüsü’nden kıdemli yazar Dr. Yves-Alexandre de Montjoye şu sözleri dile getiriyor:
“Bu, şirketler için sorulacak oldukça standart bir bilgi. Her ne kadar GDPR yönergelerine bağlı olsalar da, veriler anonimleştirildiğinde herkese satmakta serbestler. Araştırmamız, bu gerçekleştiğinde bireylerin ne kadar kolay ve ne kadar doğru izlenebileceğini gösteriyor. Şirketler ve hükümetler, sattıkları veri kümelerinin her zaman eksik olduğunu savunarak yeniden tanımlama riskini önemsemiyor. Bulgularımız ise bunun işe yaramadığını gösteriyor. Sonuçlar, bir saldırganın buldukları kaydın aradıkları kişiye ait olup olmadığı olasılığını kolayca ve doğru bir şekilde tahmin edebileceğini gösteriyor.”
UCLouvain’den yardımcı yazar Profesör Julien Hendrickx’e göre ise anonimleştirmenin kişisel bilgilerimizi güvende tutacağından sık sık emin oluyoruz. Fakat makale, yeniden tanımlama ile kişilerin bilgilerin mahremiyetinin neredeyse hiç korunmadığını göstermekte.
Araştırmacılar, düzenleyicilerin bireyleri bu tür saldırılardan korumak için daha fazla şey yapmaları gerektiğini, aksi takdirde bu durumun bireylerin kariyerlerinin yanı sıra kişisel ve finansal yaşamlari için de ciddi sonuçları olabileceğini söylüyor.
Dr. Hendrickx, anonimleştirme standartlarının sağlam olması gerektiğini ve bu makalede gösterilen duruma benzeyen yeni tehditlerin hesaba katılması gerektiğini ekliyor.
Dr. de Montjoye ise sözlerini şu şekilde bitiriyor: “Anonimleştirmenin amacı, topluma fayda sağlamak için verilerin kullanılmasına yardımcı olmaktır. Bu son derece önemlidir. Ancak bu, insanların mahremiyetinin ihlali pahasına gerçekleştirilmemelidir.
YASAL UYARI: Çevrimiçi tanıtım aracı kişisel verileri kaydetmez ve yalnızca tanıtım amaçlıdır.
“Eksik veri setlerinde yeniden tanımlamanın başarısını üretken modeller kullanarak tahmin etme”, Luc Rocher, Julien M. Hendrickx ve Yves-Alexandre de Montjoye. Nature Communications’da 23 Temmuz 2019′ da yayımlandı.
Çevirinin orijinal metni aşağıdadır.
https://www.imperial.ac.uk/news/192112/anonymising-personal-data-enough-protect-privacy/