본문 바로가기
New Tech Trend

[LLM] ChatGPT/Cluade/Wrtn 비교 사용 후기

by 노마드공학자 2024. 5. 17.

이미지출처 : Datacamp

 

 

오늘은 챗GPT, 클로드의 유료버전 실사용 후기를 적어보고자합니다.

챗GPT는 1년동안 유료버전을 사용했으며, 클로드는 2개월째 사용하고있는데요

제가 사용하면서 느낀 후기를 솔직하게 적어보고자합니다.

 

ChatGPT 유료버전 영수증
Claude 유료버전 영수증

 

일단 가장 중요한, 가격은 동일합니다.

ChatGPT4와 Claude Opus(최고급 모델) 모두 월 22불로 현시점 환율기준 약 3만원 정도입니다.

월 3만원이면 일년에 36만원으로, 적은돈은 아닙니다.

두 모델 모두 극명한 차이(장/단점)이 있기때문에, 기왕 돈내고 쓰시는거 본인에게 조금이라도 더 잘맞는 것을 쓰시는것이 좋을것 같습니다.

 

ChatGPT

 

1. ChatGPT를 사용하게된 계기

 

ChatGPT는 2022년 11월에 나왔는데 초창기에는 영어 무료버전을 쓰다가, 본격적으로 23년 4월부터 유료버전을 구독했습니다. 

ChatGPT 3.5가 유료일때부터 사용했는데, 첫 사용했을때의 그 느낌을 아직도 잊지못합니다. 곧 세상에 모든직업이 대체될것만 같았던..

저도 석사를 생성형AI쪽으로했었는데, 그 당시 교과서적으로 배우던게 구글의 BERT나 OpenAI의 GPT 1,2,... 기껏해야 3가 최신이였습니다. 이것도 뉴스기사에 몇번떴을뿐, 이렇게 일반인들의 생활에 깊숙히 들어오진 못했었습니다. 그러다가 3.5를 입문하게되었는데 지금보면 성능이 아쉽지만 그때 당시에는 센세이셔널 그 자체였습니다.

 

2.  ChatGPT 사용 후기

 

ChatGPT를 사용한 1년여간 대체적으로 만족스러웠습니다.

제가 ChatGPT에서 Claude로 갈아탄 이유도, 불만족스러워서가아니라 회사 내부망으로 ChatGPT는 막아놓았는데 Claude는 안막아놨기 때문입니다. 

 

일단, 타 LLM대비 ChatGPT의 장점(GhatGPT4이상)은 '전문성' 입니다. 문장이 다소 딱딱하게 나오긴하나 대체적으로 맞는말을 하며, 일반인 수준에서의 질문을 할시 정확도는 95%이상입니다. 저는 딱딱하게 대답하든 클로드처럼 부드럽게 대답하든 그런건 중요치않고, 정보의 질만 보기때문에 저에게는 이것은 큰 단점이 아니였습니다.

 

ChatGPT의 단점은 '전문가 분야에서의 환각' 입니다.

일반 상식수준에서의 대답은 곧 잘하지만, 저는 현직 엔지니어로써 최신 논문에 대한 구절 해석 혹은 코드-디버깅용으로 많이 사용하는데요. 이때는 환각(Hallucination)이 엄청나게 심합니다.

 

예를들면 이런식입니다.

 

ChatGPT의 대답을 보면, 아주 General하게만 대답할뿐 아니라, (사과는 사과기때문에 사과다 수준)

이것에 대해서 잘못된 사실을 주지시키며 한번 더 물어보면 하기와 같이 대답합니다.

※ 실제로는 LiFePO4가 Flat하고 NCM은 Flat하지않음.

    하지만, 그게 아니라며 어떤 논문에서는 NCM이 Flat하고 LiFePO4가 Flat하지 않다던데... 하며 확실하냐고 다시물어봄

 

요약하면 이렇습니다.

A는 B야? (일반적인 사실)라고 질문하면, A는 B가맞다고 말하며 아주 일반적인 이유를 예시로들어 설명합니다.

여기서 "아닌데? A는 C라는데?" 라고하면, "죄송합니다. A는 C입니다." 이런식으로 대답을 합니다.

즉, 정답을 알고 의도적으로 물어보는 저는 이것을 파악하고 있지만, 정말 몰라서 물어보는 경우에는 이런 Hallucination에 의해서 전혀 정보를 얻을수가 없고 화만 얻을 수 있습니다.

초기에는 ChatGPT에 물어보다가, 지금은 일정이상 깊이의 전문성을 요하는 질문은 그냥 구글링합니다.

 

또 한가지 ChatGPT의 단점으로는 한글에 취약하다는 점입니다.

똑같은 질문을 하더라도, 대부분의 LLM은 영어를 더 많이 학습했기에, 영어로 질문했을시 더욱 정확한 대답을 합니다.

경우에 따라서는 답변의 질 차이가 엄청난다는것을 느끼실 수 있습니다.

이것은 전문 영역 질문을 하시는분들은 더욱 많이 체감하실 수 있습니다.

 

Claude(클로드) 사용후기

 

1. Claude(클로드)를 사용하게된 계기

 

ChatGPT가 워낙 유명해졌고, 작년만 하더라도 많은 회사들에서 보안문제를 들먹이며 ChatGPT 서버접근을 못하게 했기때문입니다. 여러 대체제를 찾던 중, 그나마 클로드가 성능이 가장 준수하다고 판하여 사용하게되었습니다.

그리고 이쪽 전공을한지라, Entropic이라는 회사가 만들어질때부터 관심있게 눈여겨봤기에 Gemini, Claude, ChatGPT의 삼파전을 생각하고 있어 한번씩은 다 꼭 써봐야겠다는 생각을 가지고 있었습니다.

 

2.  Claude 사용 후기

 

ChatGPT4를 사용하다가, 바로 갈아탄지라 장단점에 대해 체감되는 부분이 많았습니다.

일단, Claude의 장점은 구어체적인 답변입니다. (별도의 프롬프트 없이 Default 모델 기준)

ChatGPT는 딱딱하게, 로봇처럼 질문에 대한 답변을 내뱉는다면, 클로드는 뭔가 선생님이 설명해주듯이 부드러운 구어체형식으로 대답합니다. 

 

또 다른 Claude의 장점으로는 ChatGPT대비 한글에 대한 인식률이 높다고 느껴지는 부분입니다.

이것은 주관적일 수 있으나, 한국 LLM 커뮤니티 및 제가 직접 사용해본 결과상, 뭔가 영어질문-한글질문에 대한 답변의 괴리감이 ChatGPT대비 덜한것 같습니다. 구어체적으로 답변을해서 체감상 그럴 수 있지만 확실히 한글에 대한 인식률이 높은것 같습니다. ChatGPT쓸때는 Hallucination 시작하면 영어로 다시 물어봤었는데, Claude는 한글로 묻나 영어로 묻나 차이없이 Hallucination이 유지 되는 일관성 (좋은건가...)을 보여주었습니다.

 

Claude의 다른 장점으로는 '전문성' 입니다.

일반적인 상식을 질문할때의 답변 퀄리티는 ChatGPT와 큰 차이가 없었습니다.

다만, 전문적인 부분의 지식을 물어볼때는 차이가 나는데, 위에 ChatGPT에 질문한것과 똑같은 질문을 해보겠습니다.

 

(좌) Claude 대답, (우) ChatGPT 대답

 

Claude3 Opus가 대답한 답변은 정말 훌륭합니다.

LiFePO4/Graphite 소재의 배터리 OCV가 평탄하게 나타나는 이유는, 양극재의 Olivine 구조와 상변화거동, 2Phase 특성에 대해 반드시 기술해야합니다. 클로드는 이 핵심 키워드들을 모두 포함하여 답변하고 있습니다.

반면, ChatGPT는 "화학적 구조가 안정적이기 때문에 그렇다" 라는 소리만합니다.

 

Question : "A는 B야?" 

Claude 日 : "A는 B-1,B-2,B-3,B-4라는 특징을 모두 가지고 있기에 B라고 볼수있습니다."

ChatGPT 日 : "A는 B입다. 왜냐면 A는 B이기 때문입니다."

 

이정도 차이라고 보시면 됩니다.

사전 준비해서 굳이 Claude가 대답을 더잘하는것을 뽑아온게 아니라 이 글을 쓰면서 즉각적으로 생각나는 질문을 했을때의 결과가 이렇다는점 참고해주세요 (ChatGPT가 더 잘하는 영역/분야가 있을수 있습니다.)

 

Claude의 단점으로는 ChatGPT와 같이 Hallucination이 심하다는 점입니다.

ChatGPT와 동일하게 Hallucination(환각)을 유도하는 질문을 했는데, 동일하게 실수를 범합니다.

똑같은 질문을했고, 똑같은 실수를 범하고 있지만 Claude쪽 답변이 뭔가 조금더 구어체적인?것을 확인하실 수 있습니다.

(좌) Claude 대답, (우) ChatGPT 대답

 

가장 큰 Claude의 단점으로는 질문횟수가 극도로 제한적이라는 점입니다. (매번 업데이트하므로, 글작성 현시점 기준)

이건 정말 큰 단점입니다. 이것때문에 저도 다시 ChatGPT로 돌아가고자 하는데요 (ChatGPT-4o가 나와서기도 하지만)

최근에는 ChatGPT도 상위모델 질문갯수 제한이 걸렸지만, 클로드는 체감상 엄청나게 심합니다.

Claude3 Opus 기준으로 몇번 질문하다보면, "10개 질문 남았고, 6시간동안 Opus 못쓴다." 라고 경고메시지가 뜹니다.

그리고 꼬리질문을 이어나갈수록 (한 페이지에서의 질의응답양이 많아져, 메모리를 많이 차지할수록) 유료버전 질문수는 기하급수적으로 줄어듭니다.

이것은 코딩하는사람들에게는 엄청난 단점입니다. Input을 백만토큰 받을수있다고 광고하면 뭐하나요, 토큰수에 비례해서 실제 가능한 질문수가 줄어드는데..

코딩하시는분들은 예전에는 stackoverflow 일일히 찾아보시던것을 그냥 코드, 에러를 LLM에 복붙해서 디버깅하는경우가 많습니다. 이런 경우, 자연스레 질문의 길이는 길어지게되고 코드라는게 점점 Add/del해나가는것이기에 꼬리질문이 필요한 경우가 많습니다. 즉, 코딩하시는분들은 Opus키고 얼마지나지않아 질문수 제한이 뜰껍니다.

 

하지만, 여기서 더 큰문제가 있습니다.

Claude3 Opus의 유료질문수를 다썼다면, 무료버전을 쓰라고 하는데요. 이 무료버전도 질문갯수 제한이 있습니다;;

Entropic이 제가 알기로 50~70명수준의 엔지니어로 구성된 작은 스타트업이라 투자금 대비 인프라 설비쪽이 많이 부족하다곤 알고있습니다만, ChatGPT와 똑같은 돈을 내고 쓰는데 무료/유료버전 모두 질문갯수를 타이트하게 관리한다면 굳이 고객입장에서 쓸이유가 있나 싶습니다. 그렇다고 드라마틱하게 성능 차이가 느껴지는것도 아닙니다.

물론, ChatGPT도 질문갯수 제한이 있지만 Official하게 공표된 질문갯수 대비, 코딩하시는분들은 Claude에서 더욱 빨리 질문가능갯수가 줄어드는것을 체감하실 수 있으실것 같습니다.

 

Wrtn

https://wrtn.ai/

 

뤼튼

당신의 첫 AI 에이전트 뤼튼. AI 검색부터 나만의 AI 캐릭터까지, AI의 끝없는 가능성을 탐험해 보세요.

wrtn.ai

Wrtn(뤼튼)도 몇달정도 사용해보았습니다.

Wrtn은 자체개발 LLM이 아니고, ChatGPT나 Claude, Lama, 미스트랄 같은 여러 LLM들을 종합하여 만든 '플랫폼' 입니다.

뤼튼은 일단 '전면 무료' 라는 점에서 먹고들어가는 부분이 있으나, 이 가격적인 부분을 제외하곤 모두 단점입니다.

공짜로 쓰는 입장에서 무슨 불평을하냐? 라고 할수있겠지만, 직접 사용해본 유저입장에서 느낀 장/단점을 정리해보겠습니다.

 

첫번째 단점으로, 프롬프트 엔지니어링이 욕나올정도로 안좋습니다.

뤼튼이 공짜라, LLM 업체에 API 사용료를 최대한 안내기 위함인것도 이해가 되지만 너무너무 짧게 대답하고(질문에 대한 필요한 답변이 없어서 불편을 느낄정도로), 이 답변도 너무 General한 경우가 많습니다. 가끔씩은 ChatGPT-4로 설정되어있지만, 이거 ChatGPT3아니야? 라는 생각이 들 정도로 답변이 너무 형편없습니다.

 

두번째 단점으로, 답변 시간(렉)이 엄청 깁니다.

ChatGPT 초반에도 비슷한 현상이 있었습니다. 북미에서 가장 많이 사용하는 한국 시간대인 밤즘되면 사용자가 너무 많아 질문하나해도 답변에 1분씩 걸리고 그랬었습니다.

이것이 지금 뤼튼에도 똑같이 발생하고 있습니다. 뤼튼은 한국에서 서비스하는 플랫폼이기에 한 3~4시이후부터는 GPT-4로 질문해놓고 질문던져놓으면 화장실다녀오시면 답변되있다고 보시면 됩니다.

따라서 저는 뤼튼은 업무나 전문 영역에 대한 심도있는 대화보다는, 번역시키는 정도로 쉬운 Task에 쓰고있습니다.

 

Gemini

 

Gemini(제미나이)는 Google에서 만든 LLM입니다. 

원래 BARD라는 초창기 모델일때 쫌 썼었는데, Gemini로 바뀐 이후로는 무료버전 밖에 사용해보지 않았습니다.

일단, 글로벌 대기업답게 UI가 아주 깔끔합니다. 확실히 프롬프트도 가다듬어져있구요

Claude와 ChatGPT의 장점이 융합된 모습입니다.

 

다만, 답변의 퀄리티가 경우에 따라 매우매우 안좋습니다.

구글이 PC(Political Correctness)주의가 아주 심한데요, (개인적으로 PC 주의를 아주 싫어함. PC라는 단어도 이 상황에 맞지않아보임.)

구글 이미지 생성형AI에서 교황이나 이제까지 역사적 인물들을 그려달라고하면 모두 흑인으로 그렸죠(심지어 일론머스크도 흑인으로 ...) 

https://v.daum.net/v/20240225081200088

 

일론 머스크가 흑인이라고?…구글 제미나이 다양성 만능주의 논란

구글이 생성형 인공지능(AI)인 제미나이 서비스 중 인물 이미지 생성 기능을 중단한다고 24일 발표했다. 구글은 제품부문 수석 부사장인 프라바카 라가반 명의 발표를 통해 “제미나이가 특정 그

v.daum.net

 

이것을 좋아하시는 분들에게는 말리지 않겠습니다만, 저는 이런것을 아주 싫어합니다.

인종차별주의자도 아니고, 모든 부분에 평등이 필요하다고 생각되나, 양극단을 아주 싫어하는데 이런 구글,디즈니식 PC주의는 극단적이라고 판단하고 있습니다.

 

이런 부분을 논외로 하고, 과학이나 PC주의와 관계되지 않은 상식, 코딩에 대한 질문을 하면 곧 잘 응답하며, Gemini Advanced를 쓰는 지인의 말로는 ChatGPT4는 안되는거같고 체감상 3.5보다 조금 나은? 3.5와 4 사이의 어딘가 같다고 합니다.

다만, ChatGPT/Claude와 달리 Gemini Advanced(유료버전)에서는 파이썬 코드 스니펫이 지원된다는 특징이 있습니다.

 

지금 당장은 이런것들 때문에 유료버전을 쓸 생각 없으나, 순다르 피차이 대신 세르게이 브린이 복귀한다는 얘기가 들리고,

구글의 '프로젝트 아스트라'가 오픈되면 Gemini Advnaced도 한번 써볼생각이 있습니다.

 

 

종합비교

출처 : OpenAI

 

전문성있는 질의응답이 필요하신 경우 ChatGPT를 추천드립니다.

위의 장단점을 보시고, Claude3를 선택하시는 분들도 계시겠지만 코딩을 하시거나, 과학/공학쪽에 종사하시는분이라면 ChatGPT가 현재까지는 최선인것 같습니다.

ChatGPT는 GPTStore를 통해 다양한 모드에 접근할수있을 뿐 아니라, ChatGPT-4o(omni)도 곧 출시될 예정입니다.

LLM의 가장 큰 불만이였던것이 질문횟수 제한인데, ChatGPT-4o에서는 ChatGPT-4대비 5배이상의 질문횟수가 주어질 예정이라고 합니다. Token이 몇백만개다 이런식으로 홍보하는 업체도 많은데 일반인은 이렇게까지 토큰수가 필요하지 않기때문에 토큰수는 굳이 언급하지 않았습니다.

 

일반적인 상식이나, 언어번역정도의 가벼운 Task 위주로 쓰실거면 무료버전 Wrtn 쓰시는것을 추천드립니다.

일반상식/번역 정도는 굳이 최신 모델을 쓸 필요도 없을뿐더러, 뤼튼에는 ChatGPT/Claude등 다양한 무료버전 모델들도 한번에 포함되어있기에, 무료로 Wrtn쓰시는것을 추천드립니다. 

 

구글에서 Project-Astra 라는 AI-Assistant를 발표했는데요, 차후 이 부분이 Gemini와 연동되어 공개된다면 그때즘 Gemini도 한번 시도해봐도 좋을것 같습니다.

저는 Claude3는 ChatGPT대비 크게 좋은점을 못느꼇고(비슷한 수준), ChatGPT-4o가 나오는 관계로 다시 ChatGPT로 돌아가려고합니다. 프로젝트 아스트라가 오픈되면 Gemini도 몇달정도 사용해볼 예정입니다.

 

 

모든 LLM은 현재도 빠른속도로 업데이트/개발되고 있기때문에, 본 글은 작성시점 기준으로 평가했으며 어디까지나 개인적인 사용경험에 기반한 후기임을 말씀드립니다.

댓글