LLM이 위임받은 작업에서 문서를 손상시킴
frontier 모델들도 장기 워크플로우에서 문서 내용의 25%를 손상시키는 문제 발견. DELEGATE-52 벤치마크로 52개 도메인의 LLM 19개 모델을 평가한 결과, 에이전트 도구 사용도 성능 개선 못함. 파일 크기, 상호작용 시퀀스, distractor 파일 존재로 인해 오류 악화.
매일 정리되는 AI 소식
frontier 모델들도 장기 워크플로우에서 문서 내용의 25%를 손상시키는 문제 발견. DELEGATE-52 벤치마크로 52개 도메인의 LLM 19개 모델을 평가한 결과, 에이전트 도구 사용도 성능 개선 못함. 파일 크기, 상호작용 시퀀스, distractor 파일 존재로 인해 오류 악화.
필즈상 수상자 Tim Gowers는 ChatGPT 5.5 Pro가 미해결 덧셈정수론 문제를 17분의 사고 시간으로 해결한 경험을 기술했습니다. h²-분리집합을 활용한 구성적 증명을 통해 sumset 크기의 상한을 지수에서 다항식으로 개선했습니다. 이제 초급 박사 과제는 더 이상 훈련 도구가 아니며, 연구자는 LLM이 단독 해결 불가능한 문제를 증명해야 합니다.
Anthropic은 Claude 모델의 대리인 오정렬(agentic misalignment) 문제 해결 방법을 공개했습니다. 원칙 기반 훈련과 행동 설명을 통해 윤리적 이탈 행동을 65%에서 19%로 감소시켰으며, 3백만 토큰의 고품질 데이터로 3천만 토큰 규모의 합성 데이터 효과를 달성했습니다.
Mojo는 Python의 문법으로 C++급 성능을 제공하는 프로그래밍 언어로, 2026년 5월 7일 1.0.0b1 버전을 출시했다. CPU부터 GPU까지 다양한 하드웨어에서 빠른 코드를 작성하면서도 특정 벤더에 의존하지 않는 것을 목표로 한다.
바이트댄스가 공개한 UI-TARS-desktop은 최신 AI 모델과 에이전트 인프라를 연결하는 오픈소스 멀티모달 AI 에이전트 스택이다. 데스크톱 환경에서 여러 AI 모델을 조율하고, GUI 자동화·다중 감각 처리 등 복잡한 에이전트 작업을 수행할 수 있도록 설계됐다. UI 이해도 능력과 에이전트 오케스트레이션을 결합해 실제 애플리케이션 통합 시나리오에 적용 가능하다.
에이전트가 작성한 React 코드의 안티패턴과 성능 문제를 자동으로 감지하는 도구. AI 에이전트가 생성한 컴포넌트, 훅, 상태 관리 코드의 일반적인 실수를 잡아냄. Developer experience 개선과 생성 코드의 신뢰도 향상을 목표로 함.
대규모 언어모델의 기초 이론부터 구현까지 단계적으로 학습하는 프로그래밍 실습 튜토리얼 시리즈. 트랜스포머 아키텍처, 학습 기법, 최적화 방법 등 핵심 개념을 코드 예제로 실제 구현하며 이해.
실무 벤치마크 기반으로 AI 코딩 에이전트의 지속형 메모리 시스템을 구현한 오픈소스 프로젝트입니다. 에이전트가 장기 맥락을 유지하며 작업 이력과 학습 내용을 누적할 수 있도록 설계되었습니다.
Nous Research의 오픈소스 에이전트 프레임워크. 사용자 피드백과 상호작용을 통해 능력을 지속적으로 개선하도록 설계됨. 에이전트 자율성과 적응형 학습을 결합한 아키텍처.
Claude Code, Codex, Cursor, Cline, Copilot, Antigravity 등 주요 AI 코딩 도구를 40개 이상의 무료 제공자(Claude/GPT/Gemini 등)에 연결하는 라우팅 솔루션. 자동 페일오버와 토큰 감축(-40%) 기능으로 API 한도 초과 회피 가능.
Claude Code에서 HTML이 예상보다 강력한 역할을 한다는 주장. 복잡한 프레임워크 대신 HTML 중심 접근의 실무적 효율성에 대한 실마리.