A szintetikus hálózatok növelhetik bizonyos adatok elérhetőségét, miközben egyéni vagy intézményi adatvédelmet védenek, egy Penn State statisztikus szerint.
"Fontos érdeklődésem a módszertan kidolgozása, amely lehetővé tenné a bizalmas adatok szélesebb körű megosztását oly módon, hogy segítsen a tudományos felfedezésekben" - mondta Aleksandra Slavkovic, a statisztikai és professzora dekán diplomázott képzésben, Eberly Tudományos Főiskola, Penn State. "A cél a bizalmas adatok megosztása minimálisan számszerűsíthető kockázattal az érzékeny információk felfedezéséhez és a statisztikai pontosság és integritás biztosításához."
A Slavkovic interdiszciplináris együttműködéssel, különösen a számítógéppel és a szociális tudósokkal találta meg az adatvédelmi problémákat. Kutatásai különféle adatokra összpontosítanak, beleértve a hálózati adatokat, amelyek kapcsolatot létesítenek az egyének, például egyének vagy intézmények között. Az amerikai tudományfejlesztési társulás (Washington, DC) 2019-es éves találkozója alkalmából beszámolt neki azon megközelítésekről, amelyek a mai napon (16. február) a differenciált adatvédelem fogalmát kielégítő szintetikus hálózatokat biztosítanak.
A megkülönböztetett adatvédelem matematikailag bizonyíthatóan garantálja az egyének számára a magánélet elvesztésének mértékét.
A tudósok a mások által összegyűjtött adatokhoz való hozzáférést szeretnék elérni a kutatásukhoz, de az ilyen hozzáférés is veszélyeztetheti a személyes adatvédelmet, még akkor is, ha az ún.
"A segédadatok bősége a fő bűnös" - mondta Slavkovic. "Az adatgyűjtés és a rekordok összekapcsolásának módszertani és technológiai fejlődésével, a könnyebb hozzáféréssel a különböző adatforrásokhoz, amelyek összekapcsolhatók a rendelkezésre álló adatkészlettel, és a finanszírozó ügynökségek adatmegosztásra vonatkozó követelményeivel növekszik az adatvédelmi kockázatok." a magánélet elvesztésének kezelésére szolgáló megoldások elengedhetetlenek a megbízható tudományos felfedezéshez. "
Például egy HIV-kábítószerrel végzett kábítószer-vizsgálatból származó, nyilvánosan hozzáférhető információ azt jelezné, hogy ki volt a kezelési csoportban, és aki a kontrollcsoportban volt. A kezelési csoport csak HIV-vel diagnosztizált embereket tartalmazna, és bár az adattulajdonosok személyes adatait visszatartották az adatállományból, néhány azonosító információ maradna. Mivel ma is sok információ áll rendelkezésre a közösségi médiában és más adatkészletekben, lehetőség van a pontok összekapcsolására és az emberek azonosítására, potenciálisan feltárva HIV-állapotukat.
"A két adatkészlet összekapcsolására szolgáló technikák, mondjuk a szavazói nyilvántartások és az egészségbiztosítási adatok jelentősen javultak" - mondta Slavkovic. "A legkorábbi megállapítások egyikében a Latanya Sweeny (most a Harvardban) megmutatta, hogy az ilyen típusú adatok összekapcsolásával az 1990-es amerikai népszámlálásban élő emberek 87 százaléka azonosítható születési dátumuk, nemük és 5 számjegyük alapján. A közelmúltban a kutatók tweetteket és társított Twitter-metaadatokat használtak annak bemutatására, hogy 96,7 százalékos pontossággal azonosíthatják a felhasználókat.
Slavkovic megjegyzi, hogy nem csak az emberek vagy az intézmények adatai szerepelnek az adatbázisokban, hanem az, hogy az adatbázison kívüli emberek közvetlenül vagy társuláson keresztül szenvedhetnek a magánélet megsértése miatt. Az adatállományban lévő információk és a szociális média információi közötti kapcsolat komoly adatvédelemhez vezethet - valami olyan, mint a HIV-állapot vagy a szexuális irányultság súlyos következményekkel járhat.
Míg az adatvédelem fontos, az összegyűjtött adatkészletek a kutatók számára alapvető információforrást jelentenek. Jelenleg, bizonyos esetekben, amikor az adatok rendkívül érzékenyek, a kutatóknak fizikailag meg kell mennie az adatraktárakhoz, hogy kutatást végezzenek, így a kutatás nehezebbé és drágábbá válik.
A Slavkovic a hálózati adatok iránt érdeklődik. Információ, amely az emberek vagy intézmények - a csomópontok - és a csomópontok közötti kapcsolatokat mutatja. A megközelítése, hogy kissé megváltozott, tükrözött hálózati adatkészleteket hozzon létre, néhány csomópont mozgatva, a kapcsolatok eltolódtak vagy az élek megváltoztak.
"A cél az, hogy olyan új hálózatokat hozzunk létre, amelyek kielégítik a szigorú differenciált adatvédelmi követelményeket, és ezzel egyidejűleg az eredeti hálózat statisztikai jellemzőinek többségét rögzítik," mondta Slavkovic.
Ezek a szintetikus adatkészletek elegendőek lehetnek néhány kutató számára a kutatási igényeik kielégítésére. Mások számára elegendő lenne megvizsgálni megközelítéseiket és hipotéziseiket, mielőtt el kellene mennie az adattároló helyszínre. A kutatók tesztelhetik a kódot, feltáró kutatást és talán alapelemzést, miközben az adattárhelyén engedélyt kapnak az eredeti adatok használatára.
"Nem tudjuk kielégíteni az összes statisztikai elemzés igényeit azonos típusú módosított adatokkal," mondta Slavkovic. „Néhány embernek szüksége lesz az eredeti adatokra, de mások nagyjából elmozdulhatnak a szintetikus adatokkal, például a szintetikus hálózatokkal.”
