너무 많은 "Chat GPT 오진"이 의료 분야에서 의미하는 것은?

IT Search
0

 소아과학 전문지 "JAMA Pediatrics"에 최근 게재된 논문에 따르면, 소아과 병세 진단에서, Chat GPT-3.5는 100개의 증례 중 83개에서 제대로 진단하지 못했다.


논문 저자들에 따르면, 83례 중 72례는 완전히 오진이었고, 나머지 11례는 임상적으로는 관련이 있지만, 올바른 진단으로 보기에는 너무 대충이었다는 것이다.



이 연구에서 유의할 점은, 사용된 대규모 언어모델(LLM)은 ChatGPT의 오래된 버전이었다는 것이고, 그것을 근거로 한 다음, 이러한 결과는 의료 분야에 있어서의 인공지능(AI)의 활용에 있어서 무엇을 의미하는 것일까?


상기의 논문은, 임상진단에서 AI 도구나 LLM을 활용할 때, 의사의 감독이 중요함을 명확히 보여주는데, AI 도구는 아직 개발이 시작된 지 얼마 되지 않아 의료 분야에서 널리 사용되기 위해서는 추가 연구와 조사가 필요. 특히 치료가 환자의 생명과 관련된 것 같으면, 의사가 항상 최종 판단을 하고 치료를 관리해야 한다.


의학적 해석은 종종 미묘하기 때문에, 여러 가지 요인을 파악하고 종합적으로 이해하는 것이 필요하다. 예를들어, 방사선과 의사가 다리의 CT 스캔의 독영으로, 종아리에 피하부종을 발견했다고 하자. 이 소견은 반드시 특정 질환이나 상태에서 특징적으로 볼 수 있는 것은 아니며, 봉소염이나 외상에 의한 타박상, 심부전에서 오는 혈관질환 등 많은 진단이 가능하다. 의사는 최종 진단을 하기 위해. 병력 등 환자에 대한 모든 정보를 참고하는데, 위 시나리오에서는 환자가 발열이 있으면 봉소염이라는 진단이 될 가능성이 높지만, 환자가 교통사고를 당했다면 피하부종은 좌상에 의한 것일 가능성이 높다.


JAMA Pediatrics지에 실린 논문에서 나타난 것처럼, AI가 아직 개량될 필요가 있는 것은 바로 이런 맥락의 정보다. 소아의 증례에서 적절한 진단을 하려면, 증상의 패턴 인식뿐만 아니라, 환자의 나이와 추가 문맥 정보도 고려해야 한다. AI는 확실히 패턴 인식에는 뛰어나지만, 증상에서 여러 가지 진단이 생각되는 것보다 복잡한 경우로는 정확한 진단을 할 수 없을 가능성이 있다는 것. LLM에 의해 이뤄지는 결정이나 진단을 의사가 관리·감독해야 하는 것은 AI에 이런 한계가 있기 때문.



그렇다면 의료업계는 환자 치료를 보조하는 수단으로 AI를 포기해야 할까.


AI에는 매우 큰 이점이 있으며, 상기 논문은 연구자와 과학자가 계속해서 LLM 개발을 진행하여 AI의 성능을 향상시키기 위한 추진력이 되어야 하고, AI 도구는 의료인의 피로 경감과 환자와의 소통, 처방전 기록, 원격 치료 등을 뒷받침해 의료를 변혁할 가능성을 내포하고 있다.


AI 도구나 챗봇은 학습에 데이터셋이 필요하고, ChatGPT 등 도구의 성능을 향상시키기 위해서는 보다 복잡한 데이터셋을 사용해야 한다. 이용되는 데이터 세트가 포괄적이고 선입견이 적은 것일수록, 성능은 향상된다. 이미 잘 알려져 있듯이 선입견은 AI 도구의 성능을 제한하는 요소로 AI 소프트웨어를 평가하고 개선할 때 항상 고려해야 한다.


via : https://www.forbes.com/sites/omerawan/2024/02/11/chatgpt-misdiagnoses-majority-of-pediatric-caseswhat-this-means-for-healthcare

Tags:

댓글 쓰기

0댓글

댓글 쓰기 (0)