데이터의 상관관계는 인과관계와 다릅니다.
1. 데이터 전처리와 분석 방법
- Error bar (시각적 가이드) 추가하기
- 데이터 변동성을 그래픽으로 표현한 것이며 그래프에서 보고된 측정의 오차 또는 불확실성을 나타내는 데 사용합니다.
- 적합한 통계 테스트 찾기
- 아웃라이어 (이상치) 제거하기
- 데이터 표준화하기
- EDA (Exploratory Data Analysis) 충분한 시간을 보내기
2. 산점도 그래프 기반 구분
- 데이터 학습의 결과가 적절한 수준인지에 대한 인식이 있어야 합니다.
- Under-fitting은 너무 단순화되어 있고 Over-fitting은 너무 정확하기 때문에 아웃라이어가 되지 않아도 될 값이 아웃라이어가 될 수도 있습니다. 즉, Appropirate-fitting으로 적용해야 합니다.
- 학습(training) 데이터는 테스트(testing) 데이터와 달라야 합니다.
3. 블랙박스 알고리즘
- AI 기반 학습 알고리즘은 설명이 가능하지 않는 블랙박스 형태의 단점이 존재하였습니다.
- 그러나 최근 설명력도 정확도만큼 중요해졌기 때문에 사후 설명 가능성 기술을 지닌 Saliency map, SHAP가 생겼습니다.
- AI 모델에서는 픽셀 하나만 바귈 경우 알고리즘 학습 결과가 달라질 수 있는 위험성이 있습니다.
4. 웹 데이터 처리
Spiral of silence (의견의 대표성)
- 개인의 여론 분포에 대한 인식이 개인의 의견을 표현하려는 의지에 영향을 미친다는 주장입니다.
- 이는 개인이 자신의 의견이 그룹 전체에서 공유된다는 것을 알게 되면 자신의 의견에 대해 더 자신감을 가지고 외부적으로 의사를 표명할 것이라고 주장합니다.
- 그러나 개인이 자신의 의견이 그룹에서 인기가 없음을 알게되면 더 소극적이고 침묵을 지킬 가능성이 높습니다.
- 또한, 소셜 링크를 통한 빠른 정보 전파, 봇의 참여, 극단화 현상을 주의해야 합니다.
인포데믹 현상
인포데믹 (infodemic) : 사실 정보와 더불어 오정보의 양이 늘어 구분이 어려워지는 정보 과부화 현상을 의미합니다.
The right to be forgotten
잊혀질 권리는 사생활 노출이나 과거 기록에 대해 포털과 인터넷 서비스에서 삭제되지 않아서 개인 정보의 과다 노출 피해가 발생하는 것을 방지하는 권리입니다.
디지털 서비스법 (Digital Services Act)
- 유럽 연합 중심으로 빅테크 기업 대상 플랫폼 유해 콘텐츠 단속 의무 강화하였고 이는 전 세계로 확산되었습니다.
- 즉, 네티즌의 성별, 인종, 종교 등에 기반한 알고리즘으로 개인화 추천 광고를 노출하지 않습니다.
- 또한, 어린이 대상 개인화 추천 광고도 전면 금지하였습니다.
- 해당 사업자는 혐오 발언, 아동 학대 등 불법 콘텐츠 유통을 막아야 하며 이를 위반 시 상당한 과징금을 부여받습니다.
5. AI와 윤리적 결정
인공지능 알고리즘으로 인한 부작용이 존재하였습니다.
- 예시로는 COMPAS라는 피고의 미래 범죄 위험을 점수로 예측하는 Software tool에서 백인보다 흑인의 미래 범죄 위험도를 높게 예측하였습니다.
- Amazon의 AI 기반 채용 시스템이 IT 직군에 남성 지원자를 추천하는 문제가 발생하였습니다.
- 마이크로소프트에서 챗봇을 공개하였지만 특정 사람들을 차별하는 발언을 하도록 학습이 되어 중단한 후 나온 챗봇은 소수자에 대한 대화를 피하여 컨텐츠 검열이라는 지적을 받았습니다.
반응형
'LG AI' 카테고리의 다른 글
[Module 2] Machine Learning 개론_Introduction to ML (0) | 2025.01.26 |
---|---|
[Module 1] AI 윤리_세계적인 데이터 과학자가 되는 방법 (0) | 2025.01.26 |
[Module 1] AI 윤리_AI Ethics (0) | 2025.01.26 |