실패 경험 학습해 스스로 진화하는 구조 구현…Docker·Daytona 기반 원격 실행 기능 추가

[스포츠서울 | 김종철 기자] AI가 단순 질의응답 수준을 넘어 실제 업무를 수행하는 ‘에이전틱 AI(Agentic AI)’ 형태로 발전하면서, 산업 현장에서는 AI 에이전트의 안정성과 정확도를 높이기 위한 기술 경쟁이 본격화되고 있다. 특히 여러 단계를 거치는 복합 업무 수행 과정에서 발생하는 오류와 실패를 어떻게 줄일 것인지가 기업 도입의 핵심 과제로 떠오르고 있다.

기존 거대언어모델(LLM) 기반 AI 에이전트는 실행 과정에서 발생한 실패를 반복적으로 경험하더라도 이를 구조화된 학습 자산으로 축적하지 못하는 한계가 있었다. 이에 따라 실패 사례를 분석하고 재사용 가능한 기술 형태로 전환해 스스로 성능을 개선하는 자가 학습형 프레임워크에 대한 관심이 커지고 있다.

오픈소스 AGI(범용 인공지능) 개발 기업 센티언트 랩스(Sentient Labs)는 코딩 에이전트 성능 향상을 위한 자가 진화 프레임워크 ‘에보스킬(EvoSkill)’의 신규 버전 v1.1.0을 공개했다고 밝혔다.

에보스킬은 AI 에이전트가 작업 수행 중 발생한 실행 실패 사례를 분석하고, 이를 재사용 가능한 구조적 기술(skills)로 자동 변환하는 태스크 애그노스틱(task-agnostic) 프레임워크다. 복잡한 추론 과정에서 오류가 누적되는 기존 LLM 기반 에이전트 구조의 한계를 보완하기 위해 설계됐다.

기술의 핵심은 실행자(Executor), 제안자(Proposer), 스킬 빌더(Skill Builder)로 구성된 ‘자가 진화 루프(Self-Evolving Loop)’다. 에이전트 수행 과정에서 오류가 발생하면 제안자가 원인을 분석하고 수정 방향을 제시하며, 스킬 빌더는 이를 ‘스킬 플레이북’ 형태의 재사용 가능한 자산으로 저장한다. 반복적인 학습이 이어질수록 단편적인 경험은 구조화된 지식으로 축적돼 에이전트의 업무 숙련도가 향상되는 방식이다.

최근 글로벌 AI 시장에서는 개발 자동화와 업무 생산성 향상을 위한 AI 코딩 에이전트 경쟁이 확대되고 있다. 기업들은 단순 생성형 AI를 넘어 실제 업무 프로세스를 독립적으로 처리할 수 있는 AI 시스템 도입에 속도를 내고 있으며, 실행 오류 감소와 자율 학습 능력이 주요 경쟁 요소로 꼽히고 있다.

센티언트에 따르면 에보스킬은 주요 벤치마크 테스트에서도 성능 향상 결과를 기록했다. OfficeQA에서는 정확도가 기존 60.6%에서 67.9%로 7.3%포인트 상승했고, SealQA에서는 26.6%에서 38.7%로 12.1%포인트 개선됐다. 회사 측은 이를 기반으로 전체 코딩 에이전트 성능이 최대 50% 수준까지 향상됐다고 설명했다.

이번 v1.1.0 업데이트에는 엔터프라이즈 환경을 고려한 기능도 포함됐다. Docker와 Daytona 기반 원격 실행 환경을 지원하며, 프로그램 상태(.claude/)와 루프 상태(.evoskill/)를 분리해 시스템 안정성을 강화했다. 또한 OfficeQA 데모 스크립트를 제공해 개발자 접근성과 활용 편의성도 높였다.

센티언트는 폴리곤(Polygon) 공동 창업자 샌딥 네일월(Sandeep Nailwal)과 프린스턴대 프라모드 비스워나스(Pramod Viswanath) 교수 등이 참여해 설립한 프로젝트다. 회사는 피터 틸(Peter Thiel)의 파운더스 펀드(Founders Fund), 판테라 캐피털(Pantera Capital), 프레임워크 벤처스(Framework Ventures) 등으로부터 총 8,500만 달러(약 1,100억 원) 규모의 시드 투자를 유치한 바 있다.

한편, 센티언트 관계자는 “에보스킬은 AI 에이전트가 실패를 통해 스스로 개선되는 구조를 구현한 기술”이라며 “한국을 포함한 아시아 개발자 커뮤니티와의 협력도 지속 확대해 나갈 계획”이라고 밝혔다. jckim99@sportsseoul.com

기사추천