Counterfactual Explanations이란?
Counterfactual Explanations에 대한 설명은 유튜브 링크에서 잘 설명해주고 있다. 해당 포스트의 설명도 이 영상에서 많이 참고하여 작성되었다😎
Explainable AI (XAI)의 목적은 Black box인 AI 모델이 어떤 방식으로 동작을 했는지 설명하는 것이다. 그중 Counterfactual Explanation은 "만약 OO이 달라졌으면 결과가 어떻게 달라졌을까?"라는 가정을 통해서 AI 모델을 설명하게 된다.
예시를 하나 들어보자, 여러 feature (몸무게, 나이, 성별 등등)로 구성된 뇌졸중 데이터를 머신러닝 모델에 학습을 했다. 어떤 한 데이터에 대해서 머신러닝 모델은 90% 확률로 뇌졸중이라고 판단을 내렸다. 하지만, 우리는 왜 머신러닝 모델이 이 결정을 내렸는지 알 수 없다.
그런데 우리가 데이터에서 BMI의 값만 34에서 25로 바꾸었더니 머신러닝 모델이 70% 확률로 뇌졸중이 아니다라고 판단을 바꾸었다. 이 사실을 통해 "머신러닝 모델이 BMI feature를 뇌졸중을 판단할 때 중요하게 생각하고 있었구나!"라는 사실을 알 수 있다.
A Counterfactual is the smallest change in the input features, that changes the prediction to another (predefined) output
한글로 다시 표현하자면, Counterfactual은 머신러닝의 모델의 prediction을 다른 것으로 바꾸는 가장 작은 변화이다.
- 설명하고 싶은 데이터: 뇌졸중으로 판단된 데이터
- Counterfactual explanation: 위의 데이터에서 BMI를 25로 바꾼 데이터
- 모델에 대해 설명할 수 있는 것: 해당 모델은 뇌졸중을 판단할 때 BMI의 영향이 큼
Adversarial attack이란?
위의 정의를 봤을 때 어렴풋이 Adversarial attack이 생각났다면... 맞다. 사실 Counterfactual과 adversarial attack은 비슷한 목표를 가지고 있다.
An adversarial attack is a malicious attempt that tries to perturb data to new data such that the classifier misclassifies new data - link
정의를 보면 Counterfactual이랑 거의 비슷한 것을 알 수 있다. Adversarial attack도 머신러닝 모델의 결과를 바꾸기 위한 perturbed data를 찾는 것을 목표로 한다. 여기서 perturbed data는 위에서 smallest changes in the input feature와 비슷하게 생각하면 된다.
Adversarial attack을 설명할 때의 유명한 예시를 갖고 와 보았다. $x$는 원래 이미지이고, 머신러닝 모델에 넣었을 때 57.7%의 확률로 panda라고 판단을 한다. 그런데 우리가 여기에 사람이 인식할 수 없는 작은 노이즈를 더해서 $x'$이라는 새로운 이미지를 만들었고 이를 머신러닝 모델에 넣었는데 99.3%의 확률로 gibbon이라고 판단을 하는 것이다. 우리는 왼쪽의 판다 사진과 오른쪽의 판다 사진이 같다고 보여지는데 모델은 다른 판단을 내리는 것이다. 이러한 attack을 adversarial attack이라고 부른다.
Connection between Counterfactual and Adversarial Attack
내가 갖고 있는 데이터를 변형해서 머신러닝 모델의 결과를 바꿀 수 있는 새로운 데이터를 만들고 싶은데, 그 목적이
- 머신러닝 모델의 판단의 이유를 설명하고 싶어서! → Counterfactual
- 머신러닝 모델을 속이고 싶어서! → Adversarial attack
이라고 분류할 수 있을 것 같다. 하지만, 실제 결과물을 보면 Counterfactual의 경우에는 사람이 결과물을 보고 해석해야 할 수 있기에 semantic한 정보가 바뀐 데이터를 얻게 될 것이고, Adversarial attack의 경우에는 사람의 눈에 보이지 않는 노이즈가 추가되어 원래의 데이터와 거의 같은 데이터를 얻게 될 것이다.
'Machine Learning > Explainable AI' 카테고리의 다른 글
[논문 리뷰] Adversarial Counterfactual Visual Explanations (CVPR 2023) (2) | 2024.01.27 |
---|