본 글은 Youtube OpenAI 공식 홈페이지에서 제공하는 영상을 기준으로 작성하였습니다.
본 글의 이미지에 대한 모든 저작권은 구글에 있으며, 직접 영상을 보고 캡쳐하여 작성하였습니다.
Link : https://www.youtube.com/watch?v=DQacCB9tDaw
https://limitsinx.tistory.com/320
ChatGPT-4o가 발표된지는 현 글 작성기준 2주 조금 덜되었습니다.
최근 저도 제연구에 박차를 가하고있고, Google 2024 I/O포함 워낙 테크기술들이 쏟아져 나오는 기간이라(곧 Apple WWDC도..) 기술을 F/UP 하기만해도 시간가는줄 모르겠네요
Keynote speech
본 발표는 Keynote라고 할것은 없었습니다.
Google I/O 행사같은 대규모 행사라기보다는 30분정도 스튜디오에서 진행된 PoC에 가까웠기 때문입니다.
Desktop App/Web UI 개선에 관해서도 앞에 잠깐 얘기하지만, 본 Spring Update의 핵심은 GPT4o(omni)였습니다.
1. GPT-4 대비 성능 개선
GPT-4o는 기존 버전 대비 약 2배이상의 속도, 50%이상 저렴해진 가격 그리고 5x higher rate limits로 개선되었다고 합니다.
여기서, B2B가 아닌 이상 일반 Customer관점에서 가장 와닿는 부분은 5x higher rate limits 일것입니다.
Entropic의 Claude도 마찬가지인데, 몇번 질문하다보면 대기시간이뜨고 기다리라고 하는 경우가 많습니다.
전세계에서 쏟아지는 질문들에 대한 traffic이 감당이 안되니 천편일률적으로 가능한 질문의 양을 제한하는것인데요
질문가능한 양이 GPT-4 Turbo대비 5배까지 많아진다고합니다.
저에게는 이것이 가장 중요한 것이었기에, 이것만으로도 현재 사용하는 Claude3에서 갈아탈 이유는 충분해보입니다.
(개인적으로 omni보다 이게 더 직접적으로 와닿음)
50% Cheaper는 B2B에 유의미할것인데, 지금 Google의 Gemini가 자체 HW(TPU), GCP(Google Cloud Platform)을 기반으로 B2B 가격을 내리고 있는데 이것을 어느정도 염두에 둔것이 아닌가 생각됩니다.
2x faster는 결국 Traffic 의존이고 사용조건에 따라 달라질것이기에 크게 중요한 정보인진 모르겠습니다.
2. ChatGPT-4o(omni)
1) Multimodal-Voice
Multimodal 중 Voice부분은 단연 압도적이였습니다.
제가 스파이크 존 감독을 아주 좋아하는데요, 존말코비치되기와 더불어 Her이라는 영화를 가장좋아하는데 이것과 아주 흡사했습니다.
GPT와 Real-Time Communication을 하는데, GPT의 Response처리 속도가 인간의 청각적 역치이하이기때문에 실제 인간과 대화하는것 이상의 느낌을 줍니다.(데모 기준)
Voice에서 첫번째로 놀랐던점은 감정표현입니다.
감정을 풍부하게 해달라고하면 할수록 점점 과장된 감정과 오페라에 가까운 소리를 내는데요.
저는 '감정'도 충분히 '학습' 될수있다고 믿어오던 편이였습니다. 개인적인 생각이지만, 저는 인간이 선천적으로 뭔가를 가지고 태어난다고 생각하지 않습니다. 심지어 감정또한 하나의 후천적 학습과정이라고 생각하며 그 예시중 하나가 싸이코패스나 소시오패스를 가진사람들이 성장과정에서 가정/학창/교우시절에 트러블이 있었던 경우가 많은것이라 생각합니다.
즉, GPT-4o의 감정은 실제 감정이라고 생각하고 더욱 정교해질수록 사람은 분간할수없게될것입니다.
Voice에서 두번째로 놀랐던점은 대화중 Interrupt였습니다.
기존 ChatGPT/Claude포함 전세계 현존하는 모든 LLM은 본인이 대답이 끝나기 전까지 질문을 하게하지 않습니다.
질문창이 막혀있거나, 대답하는 와중에 STOP을 누르고 대답을 끊고 다시 질문을해야하죠
하지만, 본 데모에서는 정말 사람과 대화를하듯이, 말을 중간에 끊고 질문을해도 곧바로 GPT가 인식하고 새로운 대답을 합니다. 이제는 정말로 Real-Time Communication이 가능하다는 것입니다.
2. Multimodal-Vision
Vision 부분도 인상적이였습니다.
영화 Her에서도 하기 이미지와 같이 셔츠 포켓에 스마트폰을 넣어두고, AI 연인과 함께 카메라로 세상을 보며 데이트를 하고 즐기는 장면이 있는데요.
이것과 비슷한 느낌을 주는 발표였습니다.
3x+1=4라는 선형식을 풀도록 시키는데, 일부로 발표자가 숫자를 틀리게쓰기도하고 실수를 하는데 GPT가 영상으로 이것을 보고 있다가 바로바로 실시간으로 교정하라고 말해줍니다.
즉, 수학문제를 같이 동영상으로 지켜보며 풀어줄 나만의Tutor가 생겼다는 점이죠.
하지만, 제 경험상 느끼는 당장은 해결되지 않을듯한 GPT-4o Vision의 한계는 두가지입니다.
① 어려운 수학문제는 풀지못할것이다.
→ ChatGPT는 근본 모델 구조가 Generative AI이기때문에 수학문제를 완전히 이해해서 논리적인 답을 도출한다고 보기는 '아직까지는' 어렵습니다. 그렇기때문에 ChatGPT Plugin(Store)에도 보면 수학전문 학습모델도 있구요
중학교 수학 연립방정식정도 까지는 가능할것으로 생각되나, 고등부이상에서 미분, 시그마, 벡터같은 다양한 수학적 표현방식들이 나오면 해멜것으로 생각됩니다.
② Vision을 사용할때의 질문가능한도
→ 제가 위에 '성능개선'에서 얘기할때 가장 직접적으로 Customer가 체감할수있는것은 5x higher rates라고 말씀드렸습니다. 즉, 가능한 질문 갯수인데요
Claude3기준으로 5MB정도 사진만 몇번올려도 바로 질문갯수 제한 걸려버립니다.
그런데 영상은 초당 수십프레임이며, 정말 낮게 초당 10프레임으로만 잡아도, 1초에 10번의 이미지 질문을 하는것과 동일하게 적용될것입니다. 이부분에서 다양한 Video Compression 테크닉들이 적용될것으로 생각되나, 그렇다 하더라도 우리가 꿈꾸는것처럼 자유롭게 카메라 영상틀어놓고 GPT와 일상을 같이한다던가 이럴수는 없을것입니다.
ChatGPT-4o는 Turbo대신 Capacity가 5배늘어난다고는 하나, 4o에서의 Video기준으로는 얼마나 사용가능할지 정식 런칭되면 눈여겨볼생각입니다. (화질, Frame, ... 조건이 어떻게될지)
3. Code Interpretation
간단한 파이썬 코드를 띄워놓고, ChatGPT에게 코드해석을 시키는데 곧 잘합니다.
다만, 코드를 보면 조건문이 거의 없고 Print문이 대부분입니다.
연사닝라고 해봐야 foo, bar라는 function에 대해 double 몇개 넣어서 연산하는 정도입니다.
String, array, list 등 여러 변수들이 섞이고 조건문이 다양하게 많아지는 필드 코드에서는 크게 유의미하지 않을수 있으나, 공부하는 학생들에게는 큰 도움이 될 것 같습니다.
개인적 총평
식전 음식 디저트는 괜찮았으나, 본코스 음식이 나와봐야 알겠다.
PoC수준으로는 기대이상의 압도적인 퍼포먼스를 보여주었습니다.
Real-Time Communication이될정도의 빠른 응답속도와 감정표현, Video기반 의사소통은 정말이지 놀라웠습니다.
하지만, 현재 ChatGPT-4o라고 유료버전 사용자에게 공개된것은 이런 기능들이 적용되어있지 않습니다.
본 데모에서 발표한 수준의 기술들이 적용된 버전이 정식 런칭되어야 객관적으로 바라볼 수 있을것 같습니다.
특히, 단순히 모델의 성능뿐만 아니라 실제로 Customer가 체감할 수 있는 질문가능갯수와 Token, Traffic관리가 어떻게되는지 눈여겨 볼 필요가 있습니다.
제가 생각하는 염려, 기술의 한계들은 당장 현 시점 기준입니다. 하루가다르게 기술이 발전하고 큰 재미를 주는 분야인지라 언제 새로운 Breathru가 발표될지 정말 하루하루가 기대 됩니다. 특히 NVIDIA와의 Blackwell이 어떻게 적용될지도...
최근 OpenAI 창립멤버이자, 이바닥에서는 아주 유명한 일리야슈츠케버가 사퇴했습니다.
샘알트먼 축출사태부터 예견되긴했습니다만, 일리야슈츠케버는 초정렬(Safety)에 중요성을 두는것 같고, 샘알트먼은 사실 엔지니어는 아니죠. 사업가이기때문에 Safety보다는 당장 돈을벌수있는 기술개발에 집중하고 싶은것 같았습니다.
공교롭게도 일리야슈츠케버와 OpenAI의 Super-Alignment팀들이 사퇴하고 Claude3를만든 Entropic에서 LLM의 XAI(Explaniable AI) 가능성에 대해 Alignment의 중요성을 강조하는 대대적인 발표를 했죠. 이바닥은 매일매일이 정말 흥미로운것 같습니다.
OpenAI의 본 발표 바로 다음날에 Google 2024 I/O가 진행되었는데요, 6/10에는 애플 WWDC가 개최될 예정입니다.
관심있으신분들은 일정체크하고 보시면 좋을것 같습니다
'New Tech Trend' 카테고리의 다른 글
[LLM] ChatGPT/Cluade/Wrtn 비교 사용 후기 (39) | 2024.05.17 |
---|---|
[IT] Google I/O 2023 요약 정리 - 2 (Workspace, Pixel Fold, 클라우드, 안드로이드) (2) | 2023.06.06 |
[IT] Google I/O 2023 요약 정리 - 1 (AI, PaLM2, BARD, Immersive View, Generative AI) (0) | 2023.06.06 |
[전기차] NIO-DAY 정리 (0) | 2021.11.20 |
[재미로 읽는 공학-4] OTA(Over The Air)란 ? (2) | 2020.12.28 |
댓글