Destpêk
Fêrkirina tiştekî ji modelên hişê çêkirî
(artificial intelligence) karekî hêsan nîn e. Lê ya ji vê jî zortir ev e:
Modeleke hişê çêkirî ya hatiye perwerdekirin neçêkirina tiştên ku
dizane, bi taybetî dema ku ev model li ser bingeha torên noronî yên çêkirî
(artificial neural networks) bin. Çawa dikare modeleke hişê çêkirî ji
tiştên xelet, xeternak, ziyandar an jî kevn û derbazkirî yên ku dizane were
xelaskirin — ev îro qada lêkolînê ya her roj mezintir dibe.
Xebatên yekem ên li ser makîneya jibîrkirinê ji
aliyê rêziknameyên nepenîtiyê (privacy regulations) yên Yekîtiya
Ewropayê ve hatine han û motîvekirin — bi taybetî "mafê jibîrkirinê"
(right to be forgotten) yê di nav rêziknameyên GDPR de cih girtiye. Ev
rêziknama di sala 2014an de cara yekem derket meriyetê, lê di wê demê de
hişyariya fêrbûna makîneya (machine learning) di hişê xwe de nehêlabû.
Di wê demê de zehmet bû ku meriv texmîn bike ku modelên li ser bingeha torên
noronî yên çêkirî ku roj bê wê agahî û hesaban tevhev bikin, dê bibe qutiyek
reş (black box) a ku şêwaza xebatê zehmet be.
Pirsgirêka sereke ya vê qadê ev e ku modelên hişê
çêkirî, mîna mejiyê mirov ê ku ji wan hatine îlhamgirtin, agahiyê ne di
yekîneyên takekesî de lê di formeke belavkirî de dikolin. Ji ber vê yekê dema
ku agahiyên têkildar di bernameyan (programs) an jî danabazên
(databases) ku belge bi belge hatine hilanîn de be, himetkirina tiştekî ji
pergalê hêsan e — rêzikên kodê an jî belgeyên têkildar bibînin û jê bibin. Lê
di torên noronî yên çêkirî (artificial neural networks) de, sînapsên di
navbera noronên çêkirî de xurt dibin an jî lawaz dibin û ev rewş himetkirina
agahiyeke diyar pir aloz û tevlihev dike.
Armancên Makîneya Jibîrkirinê û
Qadên Bikaranîna Wê
Armanca sereke ya makîneya jibîrkirinê ev e:
Modeleke hişê çêkirî ya hatiye perwerdekirinê bigire û ji wê modeleke nû pêşde
bixe. Bi vî awayî modela nû, ji bilî tiştên ku divê ji bîr bike, bi heman
agahiyan hatiye perwerdekirin an jî herî kêm "mîna ku ew ji bîr
kiriye" tevdigere. Ev pênasekirin gelek pirsan tîne bîra mirov: Ma
agahiyên ku divê bên ji bîr kirin her dem baş têne îfadekirin? Gelo her dem
gengaz e ku meriv modeleke ku digihêje armanca xwestî û tevî wê jî mîna ku qet
rastî agahiyên ku divê bên ji bîr kirin tevdigere pêşde bixe? Eger ne gengaz
be, serkeftina jibîrkirinê çawa tê pîvandin?
Qadên bikaranîna makîneya jibîrkirinê yên ku ji mafê
jibîrkirinê dibin jî gelek in: pêwistiya jêbirina ji danabaza fêrkirinê ya
agahiyên an jî berhemên ku di bin mafên weşanê (copyright) de ne;
xeletbûn an jî kevinbûna agahiyên ku di fêrkirinê de hatine bikaranîn; û bi
dest xistina agahiyên ku dikarin bibe sedema encamên ziyandar an xeternak ji bo
serîlêdanê.
Jibîrkirina Rast û Algorîtmaya
SISA
Jibîrkirina rast yek ji tiştên herî hêsan ên ku
dikarin bêne kirin ev e ku bi tevahî modeleke nû ya hişê çêkirî were fêrkirin.
Eger bi bikaranîna algorîtmaya A û danabazê D modeleke M=A(D) bi dest
xistibe û were xwestin ku koma agahiyê D_f ji bîr bike, bi jêkirina wan ji danabazê
û bikaranîna agahiyên mayî D-D_f bi heman algorîtmayê modeleke M'=A(D-D_f) tê
avakirin. Lê fêrkirina modelên hişê çêkirî karekî ku dem û lêçûnê zêde dixwaze.
Algorîtmaya SISA (Sharded, Isolated, Sliced,
Aggregated) yek ji algorîtmayên yekem ên ku ji bo jibîrkirina rast hatine
pêşve xistin e. Di serîlêdanên SISA de komika daneyê (dataset) di perçeyên
piçûk de (sharded) tê veqetandin. Her perçeyek di fêrkirina modeleke jêrîn
(sub-model) de tê bikaranîn û di dema fêrkirinê de modelên cuda ji hev veqetandî
(isolated) têne girtin. Di heman demê de daneyên fêrkirinê di diliman
(sliced) de li komika fêrkirinê têne zêdekirin. Serîlêdana pêşvekirî ji bo
bersivandin ji daxwaziyên bikarhêneran, ji her modeleke jêrîn bersivê dixwaze û
van bersivan di hev de kom dike (aggregated) û bersiva dawî hildiberîne.
Nêzîkbûna Windakirinê û Rêbazên
Alternatîf
Armanca rêbazên ku di çarçova nêzîkbûna windakirinê
(approximate) de cih digirin ev e: Modeleke ku gelek agahî ji bîr kiriye û
mîna modela ku ji serî ve hatiye fêrkirin bê û bê ku ji serî ve fêrkirinê bikar
bîne pêş bixe. Yek ji van rêbazan "hilkişîna gradyan (gradient
ascent)" e — ev rêbaz di bingeh de berovajiya "kêmkirina
gradyan (gradient descent)" ya ku di fêrkirina modelên hişê çêkirî de
tê bikaranîn e.
Rêbazeke alternatîf ya girîng "cudabûna
nepenîtiyê (differential privacy — DP)" e. DP rêbazeke jibîrkirina makîneya
nîn e û ji bo himetkirina tiştan ji modelên fêrkirî nayê bikaranîn. Lê bi
prosedûrên DP ve fêrkirî, hewceyî himetkirina agahiyên diyar ji modeleke hişê
çêkirî namîne. Mebesta wê ev e ku encama algorîtmaya fêrkirinê bi awayeke diyar
bi bikaranîn an jî nebikaranîna daneyek diyar di komika fêrkirinê de ve
girêdayî nebe.
Rêbazeke din a alternatîf jî "qet-fêr-nebûn"
e. Di vê rêbazê de agahiyên ku di dema fêrkirinê de ji modela têne dayin tê
sînorkirin; agahiyên ku dibe ku roj bê were xwestin ku bêne ji bîr kirin di danabazekê
de têne hilanîn. Weke nimûne ChatGPT (chatbot), dikare mîna ku ji bîr kiribe
bixebite. Lê ev rêbaz tenê bi modelên zimanê (language models) pêşketî
yên ku dikarin talîmatan ji bikarhêneran werbigirin re tê sînordarkirin.
Nirxandina Jibîrkirinê
Ji bo nirxandina serkeftî algorîtmayên makîneya jibîrkirinê,
bi gelemperî sê krîterên cuda hewce ne. Ya yekem, çiqasî bikêrhatî ye rêbaza
windakirinê: algorîtmaya bikaranî di çi rêjeyê de ji fêrkirina ji serî ve
zûtir e? Ya duyem, performansa modela bi bandor: gelo di encamên
bersivên ku model ji bo agahiyên mayî hilberîne de kêmbûnek heye yan na? Ya
sêyem, serkeftina jibîrkirinê: gelo model bi rastî agahî an jî têgînên
ku ji bîr kirinê hatine xwestin ji bîr kiriye yan na?
Îspatkirin an jî kontrolkirina serkeftina jibîrkirinê
ne hêsan e. Ev pirs di qada lêkolînê de vekirî dimîne: Ma bes e ku makîne mîna
mirovên ku tiştek ji bîr kiriye tevbigerin?
Encam
Pêşvekirina modelên hişê çêkirî karekî dûdirêj û lêçûna
wê zêde ye. Ji ber vê yekê eger modela fêrkirî agahiyên ku dikarin bibe sedema
encamên xelet, derbazkirî an jî xeternak hebe, pratîk û bikarhêner nîn e ku ji
serî ve dest bi modeleke nû bike. Lê himetkirina tiştekî ji modelên hişê
çêkirî, bi taybetî ji modelên li ser bingeha torên noronî yên çêkirî
(artificial neural networks), pir zehmet e û qadeke lêkolînê ya her ku diçe
giringtir dibe.
Îro hin rêbazên ji bo himetkirina agahiyan ji
makîneyan armanca jibîrkirina rast dikin. Ji bo gihîştina vê armancê bi
awayeke bikêr, pêşî pêwist e ku prosedûrên fêrkirinê bi hişyariya
makîneya jibîrkirinê were plan kirin — mîna ku algorîtmaya SISA nîşan dide. Hin
rêbaz jî armanca veguherandina modela orijînal û mîna modela hatiye ji bîr
kirin dikin; van rêbazên nêzîkbûna windakirinê bi taybetî di rewşên ku
sînorên qadên zanistî an jî mijarên ku nikare bêne pênasekirin de bikêr dibin.
Di dawiyê de, ev qada nû pirsgirêkên bingehîn ên
filozofîk jî tîne pêşber me: Mafê jibîrkirinê ne tenê mijareke dadrêsî ye, lê
di heman demê de pirseke derûnnasî ye jî — makîne çawa dikare "ji-bîr-bike"?
Bersiva vê pirsê, di salên tên de, dê hem zanist û hem jî civak ji nêz ve
eleqedar bike.
Çavkanî
Bourtoule,
L., Chandrasekaran, V., Choquette-Choo, C. A., Jia, H., Travers, A., Zhang, B.,
Lie, D., & Papernot, N. (2021). Machine unlearning. 2021 IEEE
Symposium on Security and Privacy (SP), 141–159.
https://doi.org/10.1109/SP40001.2021.00019
Cao,
Y., & Yang, J. (2015). Towards making systems forget with machine
unlearning. 2015 IEEE Symposium on Security and Privacy, 463–480.
https://doi.org/10.1109/SP.2015.35
Dwork,
C., & Roth, A. (2014). The algorithmic foundations of differential privacy.
Foundations and Trends in Theoretical Computer Science, 9(3–4), 211–407.
https://doi.org/10.1561/0400000042
European
Parliament & Council of the European Union. (2016). Regulation (EU)
2016/679 (General Data Protection Regulation). Official Journal of the
European Union. https://eur-lex.europa.eu/eli/reg/2016/679/oj
Ginart,
A., Guan, M., Valiant, G., & Zou, J. Y. (2019). Making AI forget you: Data
deletion in machine learning. Advances in Neural Information Processing
Systems, 32, 3518–3531.
Nguyen,
T. T., Huynh, T. T., Nguyen, P. L., Liew, A. W., Yin, H., & Nguyen, Q. V.
H. (2022). A survey of machine unlearning. arXiv. https://doi.org/10.48550/arXiv.2209.02299
Sekhari,
A., Acharya, J., Kamath, G., & Suresh, A. T. (2021). Remember what you want
to forget: Algorithms for machine unlearning. Advances in Neural Information
Processing Systems, 34, 18075–18086.
Comments
Post a Comment