본문 바로가기
AI

ChatGPT: 판도라의 상자

by 용감한 사만다 2023. 3. 1.

 

 

판도라의 상자가 열리기 시작해 버린 거예요! 인터넷 생태계가 황폐화될 수밖에 없다.

 

ChatGPT

 

 

일본 이화학연구소(RIKEN) 하타야 류이치로(Hataya Ryuichiro) 연구팀이 대규모 생성 모델로 인한 향후에 데이터 세트 손상에 관한 논문을 내는데요.

 

AI가 그린 그림이 많아질수록 AI 성능이 나빠진다는 걸 발견한 거예요.

AI가 인간이 만든 그림들을 가지고 학습을 했을 때는 AI가 만든 천 개 이미지 중에서 75.6%가 이전에 보지 못했던 새로운 이미지 그 학습에서 내놓는 그림이 프로티지가 꽤 좋았다는 거죠.

근데 그림 학습하는 그림들의 인공지능이 그린 그림들이 섞여 들어가기 시작하니까 AI가 내놓는 그림들이 질이 떨어지기 시작하더라는 거예요.

AI가 생성한 이미지가 80% 정도 섞이니까 65.3%로 상당히 떨어지더라.라는 논문이 있어요.

 

판도라의 상자

 

 

 

그리고 동영상 표절이 굉장히 쉬워요.

며칠 전에 그 유명한 과학 유튜버가 자기 동영상을 누가 그대로 베껴서 비슷한 동영상 올려 가지고 트래픽을 다 뺏어가고 있는 걸 발견했어요.

노아 AI라는 AI 솔루션 가지고 타깃이 될 동영상들을 찾아내요.

그다음에 클로바AI로 오디오를 자동으로 텍스트로 만드는 추출을 했어요.

그리고 그 텍스트를 뤼튼이라는 ChatGPT 하고 비슷한 AI에다가 가지고 이 문장을 다시 써줘.

그러면 대본이 비슷하지만 다른 문장으로 바뀔 거 아니에요. 그렇게 해서 동영상을 막 올린 거예요.

이 사람이 이상하게 자기 동영상이 트래픽이 막 떨어지고 광고가 없어지고 찾아보니까 이런 짓을 하고 있었던 거예요.

그런데 이렇게 동영상으로 표절하니까 시간이 얼마 안 걸리겠죠.

 

 

그리고 ChatGPT를 이용하면 블로그 글을 정말 많이 만들 수 있어요.

10분 만에 ChatGPT로 블로그를 대량생산하기....

판도라의 상자가 열리기 시작해 버린 거예요. 인터넷 생태계가 황폐화될 수밖에 없다.

왜냐하면 오리지널이 사라지는 거예요. 무엇이 원본인가를 알기가 어려운데 그러면 학습 데이터가 오염되기 시작해요.

5만 개의 굉장히 좋은 학습 데이터가 있어서 그거를 공부하는 걸로 시작을 하고 전체 5조 개의 문서를 학습했는데 그 5조 개의 문서 중에 만약에 한 3조 개가 ChatGPT가 토해낸 거면 어떡하겠어요.

거기다가 클릭 하이재킹이 일어나요. 답을 여기에서 긁어와서 요약해서 탁 보여주잖아요.

그럼 그거 본 다음에 원본 링크를 다 찾아가는 사람이 몇 명이 될 것 같아요?

그러면 ChatGPT를 이용한 문서들은 엄청나게 쌓이고 생태계가 굉장히 이상해지겠죠.

그런데 사실은 이미 판도라에 상자를 열어 버린 거예요. 

 

Timnit Gebru

 

 

 

2020년도 12월에 구글의 윤리 연구가 티밋 게브루(Timnit Gebru)라는 사람이 해고됐는데,

해고된 이유가 발표하지 말라는 논문을 발표했다는 이유로 해고됐어요.

근데 논문의 개요를 제가 읽어봤는데 해고당할 이유가 없어요.

이 논문의 제목이 '확률적 앵무새 위험성에 대하여:언어 모델이 너무 커도 될까?'

거대 언어모델 AI에 대해서 확률적 앵무새라고 말한 거예요.

언어 모델이 너무 커도 될까 LLM 대규모 모델의 4가지 주요 위험에 대해서 얘기를 해요.

 

첫 번째가 환경 및 재정적 비용이에요. 돈을 너무 많이 쓰는 거 아니냐.

 

두 번째 방대한 문서를 다 긁어와서 학습을 시키니까 왜곡된 내용 편견이 들어가 있는 걸 막을 도리가 없다. 막 공격적으로 나오고 하는 게 그런 데이터가 들어가 있기 때문이거든요. 거기다가 인터넷에 대한 접근성이 낮고 온라인에서 언어적 영향력이 작은 국가와 민족의 언어와 규범이 날아가 버리는 거예요. 다 영어로 학습하잖아요. 그러니까 온라인에서 언어적 영향력이 작은 국가들이나 민족들이 갖고 있는 문화와 규범과 그 지식들이 다 날아갈 수밖에 없는 거죠. 그러니까 ai가 생성한 결과물들이 가장 부유한 국가와 커뮤니티에 관행을 반영해서 동질화 돼버리는.. 근데 막기 어려워요

 

세 번째 연구기회비용이에요. 대규모 언어모델의 한계를 알면서도 계속한다.

 

네 번째가 할루시네이션을 피할 수 없다.

틀린 게 없잖아요. 근데 구글이 2020년도에 이 사람을 해고해 버렸어요. 사실이라서 해고하는 거죠.

그때 이게 굉장히 큰 사건이 됐어요.

 

다음 편에 계속- 슝~

 

 

 

 

 

[출처] 김어준의 다스뵈이다

251회 하이브 vs카카오=대통령실, ChatGPT 2부, 이재명의 영장 :수정

'AI' 카테고리의 다른 글

클로바 더빙(Clova Dubbing) 사용하기  (0) 2023.03.02
DALL-E 2 란 무엇인가  (0) 2023.03.02
ChatGPT: 가스라이팅  (0) 2023.03.01
ChatGPT: 거짓말, 허언증  (1) 2023.02.27
Chat GPT: 발명? 아니 발견!  (0) 2023.02.27

댓글