[뉴스] 서울대·카이스트 학생이 만든 AI 음성, 세계 최고 수준의 자연스러움에 모두가 놀랐다
서울대·카이스트 학생이 만든 AI 음성, 세계 최고 수준의 자연스러움에 모두가 놀랐다
한국 대학생 두 명이 개발한 ‘나리 랩스’의 다이아 음성 생성 AI가 기존 유명 서비스인 일레븐랩스와 세사미를 뛰어넘는 자연스러운 음성 품질로 주목받고 있습니다. 1.6억 파라미터의 작은 모델임에도 불구하고 감정 표현과 실시간 스트리밍이 가능하며, 3개월 만에 완성된 이 AI는 구글 클라우드 TPU 지원으로 개발됐고, 아파 2.0 라이선스로 상업적 활용도 가능합니다. 또한, 이 모델은 오픈 소스로 허깅페이스에서 공개되어 누구나 쉽게 다운로드하고 데모를 체험할 수 있어 AI 음성 합성 기술의 대중화에 큰 기여를 할 것으로 기대됩니다. 최근 오픈AI도 GPT 이미지 생성 API를 공개하며 다양한 기업들이 이를 활용해 혁신적인 서비스를 만들고 있어, AI 생성 기술의 발전과 활용 범위가 빠르게 확장되고 있음을 알 수 있습니다.
[영상 정보]
- 영상 제목: AI뉴스 - 충격적인 음성 AI Dia, 딥시크 R2 유출, 4o 이미지 API 출시, 1100만 토큰 무료, 퍼플렉시티 Assistant, HyperCLOVA X SEE 등
- 채널명: 조코딩 JoCoding
- 업로드 날짜: 2025-04-28
- 영상 길이: 17:23
[영상에서 사용한 서비스]
- - 조코딩 : https://jocoding.net/ — 코딩 공부 및 AI 관련 콘텐츠 제공 사이트
- - 조카소 : https://jocasso.codemafia.io — 자막/번역/더빙 AI, 사진 AI 등 다양한 AI 도구 제공
- - 조코딩 네이버 카페 : https://cafe.naver.com/youtubejocoding — 조코딩 관련 커뮤니티 및 소통 공간
- - Dia by Nari Labs. : https://yummy-fir-7a4.notion.site/dia — 한국 대학생이 만든 오디오 생성 AI 프로젝트
- - 오픈AI 챗GPT 이미지 생성 API : https://openai.com/index/image-generation-api/ — 챗GPT의 이미지 생성 기능 API
- - 오픈AI 플랫폼 (챗GPT API 무료 토큰 제공) : https://platform.openai.com/settings/organization/data-controls/sharing — 챗GPT API 토큰 관리 및 사용
- - Perplexity Assistant : https://x.com/perplexity_ai/status/1915064472391336071 — 질문 답변 및 정보 검색 AI 서비스
- - Devin deepwiki : https://x.com/cognition_labs/status/1915816544480989288 — 딥러닝 기반 위키형 AI 서비스
- - 어도비 파이어플라이 : https://blog.adobe.com/ko/publish/2025/04/25/new-max-london-more-powerful-creative-cloud-new-firefly-ai-tools-more-support-creative-careers — 이미지 및 영상 제작용 생성형 AI 앱
- - 네이버 HyperCLOVA X SEED : http://clova.ai/ — 네이버의 상업용 오픈소스 AI 모델
- - lemonslice (실시간 소통 가능한 AI) : https://x.com/LemonSliceAI/status/1915808257958154284 — 이미지 한 장으로
- - 나리 랩스 다이아 음성 생성 AI : https://narilabs.com — 자연스러운 음성 생성 AI 서비스
- - 일레븐랩스 (ElevenLabs) : https://elevenlabs.io — 음성 합성 및 텍스트 음성 변환 서비스
- - 허깅페이스 (Hugging Face) : https://huggingface.co — 오픈 소스 AI 모델 공유 및 데모 제공 플랫폼
- - 구글 클라우드 (Google Cloud) : https://cloud.google.com — 클라우드 컴퓨팅 서비스, TPU 등 AI 연산 자원 제공
- - 오픈AI (OpenAI) : https://openai.com — AI 연구 및 API 제공, GPT 및 이미지 생성 API 포함
- - 어도비 (Adobe) : https://adobe.com — 디자인 및 크리에이티브 소프트웨어 제공 기업, AI API 활용
- - 에어테이블 (Airtable) : https://airtable.com — 클라우드 기반 데이터베이스 및 협업 플랫폼
- - 피그마 (Figma) : https://figma.com — 웹 기반 UI/UX 디자인 협업 툴
- - 감마 (Gamma) : https://gamma.app — 프레젠테이션 및 문서 작성 플랫폼
[주요 내용]
한국 대학생 두 명이 개발한 나리 랩스의 다이아 음성 생성 AI는 1.6억 파라미터로 작지만, 일레븐랩스보다도 자연스러운 감정 표현과 실시간 스트리밍이 가능해 해외에서도 큰 주목을 받고 있습니다.
허깅페이스에서 공개한 오픈소스 AI 모델은 파라미터가 작아 효율적이며, 구글 TPU 지원으로 3개월 만에 완성되었습니다. 아파 2.0 라이선스로 상업적 활용도 가능해 AI 개발과 적용에 큰 도움이 됩니다.
최신 GPT 이미지 생성 API가 공개되어 어도비, 피그마 등 다양한 서비스에서 쉽게 활용할 수 있습니다. 이미지 생성 비용도 200~250원대로 점점 저렴해져 개발자와 기업에 큰 기회가 되고 있습니다.
API 데이터 공유 옵션 연장과 함께 GPT 4.1·4.5 모델에서 최대 1천만 토큰을 무료로 사용할 수 있는 이벤트가 진행 중입니다. 이 기능을 활용하면 비용 부담 없이 대용량 데이터 처리가 가능해 실무에 큰 도움이 됩니다.
공유 옵션만 켜면 1100만 토큰을 무료로 활용할 수 있어 비용 부담을 크게 줄일 수 있습니다. GPT-4.5는 최근 업데이트로 지능과 문제 해결 능력이 향상되었고, 25일 메모리 저장 기능 최적화로 더 능동적이고 생산적인 소통이 가능해졌습니다. 오픈AI가 6~7월 사이에 누구나 사용할 수 있는 오픈 소스 모델을 공개할 예정이라 AI 활용의 문턱이 한층 낮아질 전망입니다.
GPT-2 이후 최초로 공개되는 오픈 웨이트 모델이 6~7월 사이 출시 예정이며, 고성능 모델과 연동하는 API 추가로 실용성과 수익화 전략이 기대됩니다.
AI 사용으로 인한 전기요금 급증과 환경 영향, 그리고 구글 크롬 브라우저(점유율 66%)의 오픈AI 인수 가능성을 객관적 데이터와 함께 살펴봅니다. AI 기능 통합이 가져올 변화와 시장 점유율 확대 전략을 이해하는 데 도움이 되는 내용입니다.
구글 반독점 이슈로 크롬 매각 가능성부터 1.2조 파라미터 딥시크 R2, GPT-4 대비 97.3% 저렴한 비용 구조까지 AI 기술 발전과 실시간 오디오·비디오 대화 모델 ‘레몬 슬라이스 라이브’ 출시 소식을 객관적 데이터와 함께 쉽게 설명해 드립니다.
사진 한 장만 업로드해도 AI와 대화가 가능해 흥미롭습니다. 예를 들어 스티브 잡스 사진을 넣으면 실제 인물과 대화하는 듯한 경험을 할 수 있어, AI 대화 기술의 새로운 가능성을 보여줍니다. 쉽고 직관적인 인터페이스 덕분에 누구나 손쉽게 활용할 수 있다는 점도 인상적입니다.
사진 한 장으로 실시간 얼굴 표정과 목소리를 자연스럽게 구현하는 AI 기술이 인상적입니다. 스티브 잡스 페르소나를 닮은 아바타가 한국어도 능숙하게 구사하며, 누구나 쉽게 체험할 수 있는 사이트와 캐릭터.ai의 최신 모델 아바타 FX까지 소개되어 AI 아바타 기술의 진화를 친절하게 알려줍니다.
사진 한 장만으로 설정한 페르소나와 자연스러운 대화가 가능해지고, 퍼플렉시티 iOS 음성 어시스턴트는 예약, 이메일 작성 등 실제 행동까지 도와주는 혁신적인 AI 비서 기능을 선보입니다.
기터브 레포지토리 구조가 복잡할 때, AI가 자동으로 문서와 설치 방법, 플로우 차트까지 만들어줘서 개발자들이 훨씬 쉽게 이해하고 활용할 수 있는 점이 인상적입니다. 프로젝트 딥 위키 같은 도구가 개발 생산성을 높이는 데 큰 도움이 된다는 사실을 알게 되었어요.
문서가 없는 소스 코드도 깃허브 대신 딥 위키를 활용하면 자동으로 문서화되고, 파이썬 빗썸 라이브러리 같은 실제 예제로 15분봉 데이터 조회부터 자동 매매 코드 완성까지 손쉽게 가능해 개발 효율을 크게 높여줍니다.
어도비 파이어플라이 2는 이미지와 영상 제작에 특화된 AI 모델을 외부 AI와 연동해 활용할 수 있어 창작 작업에 큰 도움을 줍니다. 네이버 하이퍼클로바 X시드도 한국어와 문화에 맞춘 산업용 오픈소스 AI로 주목받고 있습니다.
오픈소스 AI 모델은 3가지 크기로 나뉘어 활용 환경에 맞게 선택할 수 있습니다. 3빌리언 모델은 이미지와 영상 이해가 가능해 멀티모델 어플리케이션에 최적화되어 있고, 1.5와 0.5빌리언 모델은 한국어 처리 능력이 뛰어나 상업적 활용도 가능합니다. 벤치마크 결과도 우수해 가볍고 경제적인 AI 솔루션을 찾는 분들께 추천할 만합니다.
한국어 특화 MML인 KMMLU는 적은 비용(약 6,500달러)으로도 오픈 소스 모델을 뛰어넘는 뛰어난 한국어 이해력을 보여줍니다. 효율성과 성능을 동시에 잡은 점이 인상적이며, 허깅페이스에서 쉽게 다운로드해 활용할 수 있어 실용적입니다.
중국 부스터 로보틱스의 축구 로봇과 AI 기반 청소 로봇이 처음 보는 환경에서도 뛰어난 적응력을 보여줍니다. 특히, 훈련 데이터에 없던 집도 스스로 학습해 청소하는 기술이 인상적이며, 로봇의 피지컬 인텔리전스 발전 가능성을 객관적 근거와 함께 살펴볼 수 있습니다.
처음 보는 집에서도 꼼꼼하게 청소하는 로봇의 진화가 인상적입니다. 특히 상하이 모터쇼에서 공개된 X9 로봇은 자연스러운 걸음걸이와 부드러운 방향 전환으로 기존 휴먼드 로봇과 차별화되었고, 청소 로봇 기술이 한 단계 더 발전하고 있음을 보여줍니다.
변형 흡수와 병합이 가능한 입자 장갑으로 만든 액체 로봇은 분해와 재조립이 자유로워 미래 로봇 기술의 새로운 가능성을 보여줍니다. 특히, 이런 입자 복합 소재 덕분에 로봇이 좁은 공간도 쉽게 통과할 수 있어 터미네이터 같은 유연한 로봇 개발에 큰 기대를 모으고 있습니다.
AI 진단이 생명을 구하는 시대가 곧 다가옵니다. 의료 분야에서 AI가 암 전이 같은 중요한 문제를 조기에 발견해 치료에 큰 도움을 줄 수 있다는 점이 인상적입니다. 다만, 아직 완벽한 신뢰는 어렵지만 앞으로 AI가 진단과 처방까지 맡는 미래 의료 혁신이 기대됩니다.
댓글로 기대평을 남기면 추첨을 통해 17만 원대 기계식 키보드와 14만 원 상당 비트코인 자동 매매 강의 쿠폰을 받을 수 있는 이벤트가 진행 중입니다. 트레이딩 대시보드 만들기 챌린지와 연계해 실전 투자 자동화 경험도 쌓을 수 있어 실용적입니다.
AI 이미지 특강 소식과 함께 최신 AI 광고 트렌드와 나만의 캐릭터 만들기 실습 기회를 소개합니다. 전문가 강의로 실무에 바로 활용 가능한 유익한 내용이니 관심 있는 분들께 추천합니다.
관련 링크: 유튜브 바로가기