Félreismert arcfelismerés?
Matula bácsiból szénbányász lett, Jakupcsek Gabriellából fiatal fiú, Stohl Andrásból pedig közgazdász.
Matula bácsiból szénbányász lett, Sztarenki Dórából bennszülött, Jakupcsek Gabriellából fiatal fiú, Stohl Andrásból pedig közgazdász. De nemcsak a tőle talán távolabb álló magyar film- és médiaszereplőket minősítette át a világ egyik legjobb képfelismerő algoritmusa, hanem ismert nemzetközi személyiségeket is. Mao Ce-tung a londoni City pénzembereként jelent meg, Halle Berry pedig csak ennyit jelentett neki: egy arc.
A világhírű színésznő semmitmondó besorolása alátámasztani látszik azt, hogy napjaink arcfelismerő programjai jobban kiismerik magukat a fehér férfiakon, miközben a betáplált adatok egyoldalúsága miatt nincs elég támpontjuk a nem fehérek és a nők besorolásához.
A többi példa – mondjuk a szalmakalapos horgász bányásszá minősítése – viszont még ezt is megkérdőjelezi. Meg az is, hogy egy történelmi festményen Zrínyi Ilonát majdnem helyesen, hercegnőként sorolta be – II. Rákóczi Ferencet viszont csak egy arcként.
Amivel így eljátszottunk, az nem teljesen tudományos kísérlet volt, hanem médiaprojekt. Alapja az ImageNet képfelismerő program, amelyet 2009-ben fejlesztettek két tekintélyes amerikai egyetemen, a Princetonon és a Stanfordon. Mindmáig ez az egyik legszélesebb körben alkalmazott adatbázis a mesterséges intelligencia gyakorlatoztatásához. Több mint 14 millió felcímkézett fotót tartalmaz, több mint húszezer kategóriában. Igaz, fejlesztői hangsúlyozzák, hogy nem elsősorban arcok, hanem más képek értékelésére szánták.
Az ImageNet „személyek“ kategóriájának leleplezésére, mégpedig vállalt módon provokációra szánta rá magát két amerikai: Trevor Paglen képzőművész és Kate Crawford, egy mesterséges intelligenciát kutató intézet társigazgatója. Ez lett az ImageNet Roulette, amely az interneten már nem érhető el, de művészi installációként februárig közszemlére van téve egy milánói múzeumban. Az alkotók azt akarták bemutatni – és ez sikerült is –, hogy a mesterséges intelligencia csak annyira intelligens, amennyire az emberek által betáplált adatok engedik. Azok pedig nem lehetnek tökéletesek, hiszen az ImageNet címkéit rohammunkában dolgozó emberek készítették, percenként képek tucatjait besorolva.
Aki pár hónapja a böngészőjében megnyitotta a rulett-alkalmazást, bárkinek a képét feltölthette, és a mi kísérletezésünkhöz hasonlóan meggyőződhetett arról, hogy miután a bérmunkások nem elég alaposan címkézték a portrékat, a gép is könnyen eltéved a minősítéssel. Vagy nyer, vagy nem. A kritikát az ImageNetnél is jogosnak találhatták. Legalábbis erre utal, hogy alaposan kitakarították a képgyűjteményüket.
Érdemes megjegyezni, hogy amit az ImageNet mutat – azaz emberek besorolása, illetve foglalkozásuk, beállítottságuk meghatározása az arcképük alapján – eléggé más, mint két ismertebb módszer. Az arcazonosítás – amellyel például az okostelefonok zárolását lehet feloldani – ma már elég nagy biztonsággal felismer egy bizonyos embert, azaz a készülék gazdáját. Nagyobb a hibaszázaléka az arcfelismerésnek, amikor például körözés alatt álló személyeket szűrnének ki egy pályaudvari tömegből – ez éppen a téves riasztások miatt vitatott, és élesben nemigen működő eljárás. Érdekes bizonyítéka volt ennek, amikor tavaly egy amerikai polgárjogi szervezet az Amazon cég Rekognition nevű szoftverére ráeresztette a kongresszus mind az 535 tagjának hivatalos fotóját. A gép 28 körözött személyt vélt felismerni a törvényhozók között – természetesen tévesen.
A képelemzés megbízhatósága egyébként is kérdéses. Időnként jól működik, időnként látványosan melléfog. Aki például az utóbbi években a Google fotóalkalmazását, a piacról időközben kivont Picasát használta, rácsodálkozhatott, mennyire pontosan beazonosítja a szoftver a családtagokat, barátokat. Többnyire. Máskor meg az okozott meglepetést, hogy még azt sem ismerte fel, melyik képen szerepel ember. Olyan képekhez kérte a szereplő nevét, amelyeken emberi szemmel még nyomokban sem volt látható semmilyen arc.
Ilyen melléfogások láttán gyakran vetik a mesterséges intelligencia szemére, hogy az emberek nem tudhatják, milyen alapon dönt. Ez azonban nem egészen így van. A berlini műegyetem (TU) egy munkacsoportja például sorra vizsgálja a mesterséges intelligenciát használó programokat, és érdekes dolgok nyomára bukkant. Klaus-Robert Müller és kollégái kilesték, hogy a gép a betáplált képek mely részeit elemzi nagyon alaposan. Ebből laikus számára is szemléletes, hőtérkép-szerű minták alakultak ki.
[Nem mindig téveszt a Facebook, de amikor igen, akkor nagyon mellélő a képfelismerés]
Akadt olyan szoftver, amely valójában nem a vonatokat ismerte fel, hanem a párhuzamos vonalak alapján a síneket, vagy nem a hajókra lett figyelmes, hanem a tengerre utaló hullámvonalakra. Végképp elárulta magát, amikor egy fotón nem a ló vagy a lovas jellegzetes formáit elemezte, hanem felfigyelt a látszólag véletlenül ott hagyott szövegre (egy lovas archívum címére). Végül is megmondta, mi látható a képen, de döntése nem mondható megnyugtatónak. Rábíznánk-e magukat ilyen döntésekre, ha orvosi diagnosztikáról vagy önvezető autóról lenne szó? – kérdi Müller, aki a mesterséges intelligencia pártolója, éppen ezért dolgozik azon, hogy átlátható, ellenőrizhető legyen az algoritmusok működése.
A berlini kutatások szép példája az is, amikor több szoftvernek virtuális flipperrel kellett játszania. Akadtak, amelyek a gombokkal tartották játékban a golyót – mások rájöttek arra a kocsmai trükkre, hogyan lehet döntögetni a játékgépet. Mindkét módon eredményesek tudtak lenni, de persze az embernek nem mindegy, hogy a mesterséges intelligencia szabályosan játszik vagy sumákol-e.
Az effajta bizonytalansági tényezőt, a látszateredményt a szakirodalomban okos Hans (clever Hans) jelenségként emlegetik. Ez egy múlt század eleji német vásári látványosságra, egy számoló lóra utal. Hans azonban csak akkor tudta a patáival kopogva megadni a helyes eredményt, ha a gazdája a közelben volt és észrevétlen jeleket adott. A kutatóknak több példájuk is van az efféle butaságra, amely csak szerencsés esetben találja el az eredményt. Nicolas Papernot, egy kanadai egyetem professzora bemutatta például, hogy ha emberi szemmel nem látható, parányi változtatást eszközölnek egy pandamedve fotóján, a mesterséges intelligencia máris gibbonnak nézi.
Egy nyári hír szerint belga kutatók olyan trikót terveztek, amely láthatatlanná tenné az embereket a felügyelő rendszerek kamerái előtt. A kísérletben olyan kartonlapokat tartottak maguk előtt, amelyre megfelelő mintázatot nyomtattak. Ez egyetlen embert sem csapott volna be, de a vizsgált biztonsági rendszer elől gyakorlatilag eltűntek a mozgó vagy álló emberek.
Hasonlóan meghökkentő az októberi hír, amely szerint egy tübingeni kutatóintézet munkatársai egészen egyszerű színes folttal meg tudták zavarni az olyan mozgókép-elemző rendszereket, amelyek az önvezető autókban is működnének. A képmező egyetlen százalékát kitevő valami, amit egy ember talán észre sem venne, a gépet szinte teljesen megvakítja. Fel van adva tehát a lecke az önvezető autók programozóinak.
És Kínától Amerikáig érdemes gondolkodniuk a bűnüldöző, tüntetőfigyelő arcfelismerő rendszerek gazdáinak is. Adam Harvey amerikai kutató és művész évek óta fejleszti azt az álcázó ruhát, amely divatos viselet is, ugyanakkor az emberi szemmel ártatlannak látszó geometrikus mintája azonosíthatatlan arcok özönének képzetével tereli el a mesterséges intelligencia figyelmét.