Anthropic: Demystifying evals for AI agents
·
AI
들어가며AI 에이전트를 개발하고 있다면 누구나 공감할 고민이 있습니다. "이게 정말 개선 된 게 맞나?" 단순한 챗봇을 넘어 도구를 사용하고 복잡한 작업을 수행하는 '에이전트'는 그 자율성 때문에 평가하기가 매우 까다롭습니다. 최근 Claude를 만든 Anthropic 팀이 자신들의 경험과 고객사(Descript, Notion 등)의 사례를 바탕으로 AI 에이전트 평가(Evaluation) 방법론을 상세히 공개했습니다. 이번 글은 그 내용을 바탕으로 Anthropic이 제시한 AI 에이전트 평가 방식이 어떤 고민에서 출발했고, 어떤 접근들을 사용하고 있는지 가볍게 정리해보려 합니다. AI 에이전트 평가, 생각보다 까다로운 이유요즘 AI 에이전트(Agent)가 여기 저기서 주목받고있습니다. 자율성도 ..
LangGraph를 활용한 에이전트 디자인 패턴
·
AI
본 글은 원문 링크 에서 제공하는 예제 코드를 기반으로 작성된 글입니다. 개요AI 시스템을 설계하다 보면 한 가지 확실한 사실이 있습니다. 바로 패턴이 모든 것을 결정한다는 점입니다.전통적인 소프트웨어든, LLM 기반의 에이전트든, 워크플로우를 어떻게 구조화하느냐가 시스템의 견고함, 유연성, 확장성을 좌우합니다.이때 LangGraph는 복잡한 커스텀 로직 대신, 그래프 기반의 프레임워크를 통해 워크플로우를 정의·시각화·디버깅할 수 있도록 도와줍니다.즉, 에이전트 간의 관계를 그래프로 표현하여, 데이터의 흐름을 한눈에 파악하고 문제를 쉽게 수정할 수 있게 해줍니다.이번 글에서는 LangGraph를 활용해 구현할 수 있는 대표적인 에이전트 디자인 패턴들을 정리해보겠습니다.각 패턴이 왜 중요한지, 어떤 상황..
Telegram MCP Bot with web application
·
기타
개요이번 글에서는 제가 개발한 Telegram MCP Bot과 이를 지원하는 웹 애플리케이션 프로젝트를 소개합니다. 최근 Agent 시스템과 MCP를 학습하면서, 이를 일상 속에서도 활용할 수 있는 방법을 고민하게 되었습니다. 그 과정에서 “로컬에 Agent 서버를 띄워두고 언제 어디서나 접근할 수 있다면 유용하지 않을까?” 라는 아이디어가 떠올랐습니다. 접근성과 효율성을 고려했을 때, 가장 적합한 인터페이스는 메신저였습니다. 여러 후보 중에서도 확장성과 접근성이 뛰어난 텔레그램을 선택했고, 이를 기반으로 원하는 기능들을 구현하기 시작했습니다. 하지만, 다양한 MCP 서버를 실험하다 보니 불편한 점이 있었습니다. MCP 서버를 테스트할 수 있는 환경이 충분하지 않다는 점입니다. 예를 들어, Smither..
n8n으로 시작하는 워크플로 자동화
·
기타
개요n8n이란?n8n은 "workflow automation tool"로 분류되는 오픈소스 자동화 플랫폼입니다. 다양한 서비스들을 연결하여 반복적인 작업을 자동화할 수 있게 해주는 도구로, 마치 Zapier나 Make와 비슷한 역할을 하지만 자유도와 확장성 측면에서 훨씬 강력한 특징을 가지고 있습니다.n8n의 이름은 "node for node"에서 유래했으며, 각 작업 단위를 "노드(Node)"라는 개념으로 연결하여 하나의 데이터 흐름(workflow)을 구성합니다.예를 들어, 이메일 수신 → 텍스트 추출 → 슬랙 전송 같은 흐름을 시각적으로 설계할 수 있습니다. 주요 특징은 다음과 같습니다.오픈소스 및 무료 사용 (상업적 사용 포함)자체 호스팅 가능: 로컬, 클라우드, VPS 등 원하는 인프라에서 실행..
ariz1623
'Agent' 태그의 글 목록