Sztuczna inteligencja ma to do siebie, że skuteczność opracowanych algorytmów zależy od tego, jakie dane zostały użyte do ich uczenia. Problem ten został zauważony w przypadku algorytmów służących do rozpoznawania twarzy, które dobrze sobie radziły ze zdjęciami białych mężczyzn. Natomiast w przypadku kobiet o ciemnej karnacji skóry te same algorytmy miały dużo gorszą skuteczność. Dlatego IBM przygotował nową bazę danych zdjęć, która będzie używana do uczenia tego typu algorytmów.
Problem ten został zauważony i nagłośniony przez Joy Buolamwini z M.I.T. Media Lab. Znana wśród naukowców badaczka postanowiła sprawdzić, jak algorytmy sztucznej inteligencji radzą sobie z rozpoznawaniem osób znajdujących się na zdjęciach. Fotografie, które zostały użyte podczas eksperymentu były dobrej jakości i należycie oświetlone. Natomiast badane algorytmy miały za zadanie określić płeć osoby znajdującej się na zdjęciu. Okazało się, że algorytmy przygotowane przez IBM, Microsoft oraz Face++ nie miały problemu z określeniem płci białych mężczyzn. Błąd wyniósł zaledwie 1%. W przypadku kobiet tej samej karnacji błąd wzrósł do 7%. Dla ciemnoskórych mężczyzn 12% decyzji było błędnych, a dla kobiet o ciemnej karnacji błąd wzrósł aż do 35%. Wniosek z tego badania był bardzo prosty.
Sztuczna inteligencja może być “rasistowska”, jeśli jest uczona źle dobranymi danymi
Problem ten jest bardzo dobrze znany osobom, które na co dzień zajmują się uczeniem maszynowym. Chodzi tutaj o radzenie sobie z nierównomiernie zróżnicowanymi danymi, które są używane do uczenia modeli sztucznej inteligencji. Przetestowane algorytmy służące do rozpoznawania twarzy radziły sobie najlepiej z białymi mężczyznami, ponieważ dominowali oni wśród zdjęć użytych do uczenia poszczególnych algorytmów. Dlatego właśnie IBM kilka dni temu udostępnił nową bazę danych, która zawiera ponad milion zdjęć różnych osób. Przy czym firma zadbała o to, żeby fotografie przedstawiały osoby o różnej karnacji skóry i żeby znaleźli się w bazie przedstawiciele różnych krajów. Natomiast druga baza danych zawiera zdjęcia 36 tysięcy osób, które mogą być używane do testowania wcześniej wyuczonych algorytmów. Również w tym przypadku IBM zadbał o to, żeby dane były odpowiednio zróżnicowane.