0521 수업 / 16회차
📊 16회차 | 데이터 수집 전략 — 어디서, 무엇을, 어떻게 가져올 것인가
📌 핵심 내용 요약
1. 왜 '수집 전략'이 별도의 의사결정인가
데이터 요구사항 정의서(DRD, 12강)와 파이프라인 아키텍처(13강) 사이에는 "어디서, 어떻게 가져올 것인가"라는 결정 단계가 빠져 있다. 16강이 바로 그 다리를 채우는 시간이다.
| 회차 | 핵심 질문 | 산출물 |
|---|---|---|
| 12강 | 어떤 데이터가 필요한가? | 데이터 요구사항 정의서 (DRD) |
| 13강 | 그 데이터를 어떻게 흘릴 것인가? | 파이프라인 아키텍처 |
| 16강 | 어디서, 어떻게 가져올 것인가? | 데이터 수집 기획안 |
| 17강 | 실제로 코드로 가져와보자 | API 핸즈온 실습 코드 |
2. 데이터 출처 3분류 (1st / 2nd / 3rd Party)
| 구분 | 정의 | 핀테크 예시 | 특징 |
|---|---|---|---|
| 🏠 1st Party | 자사 서비스에서 직접 수집 | 앱 클릭 로그, 송금 트랜잭션 | 가장 정확·신선·독점적 |
| 🤝 2nd Party | 파트너사로부터 계약 하에 수신 | VAN사 매입 데이터, 마이데이터 | 자사 데이터로 못 보는 행동 파악 가능 |
| 🌐 3rd Party | 외부 제3자가 보유·공개·판매 | 한국은행 ECOS, 금감원 DART | 분석의 맥락(context)을 채워줌 |
💡 좋은 분석은 셋을 결합합니다.
예) 우리 앱 송금 데이터(1st) + 마이데이터 타사 자산(2nd) + 환율·금리(3rd)
→ "왜 이번 달 해외송금이 늘었는가?"에 답할 수 있음
예) 우리 앱 송금 데이터(1st) + 마이데이터 타사 자산(2nd) + 환율·금리(3rd)
→ "왜 이번 달 해외송금이 늘었는가?"에 답할 수 있음
3. 5가지 수집 방식 트레이드오프 매트릭스
| 방식 | 신선도 | 정확도 | 구현비용 | 운영비용 | 법적 리스크 | 핀테크 적합도 |
|---|---|---|---|---|---|---|
| 🟢 이벤트 SDK | 실시간 | 높음 | 중간 | 낮음 | PI 검토 필수 | ✅ 매우 적합 |
| 🟢 서버 로그 | 실시간 | 매우 높음 | 높음 | 중간 | 자체 데이터 | ✅ 매우 적합 |
| 🟡 API 호출 | 원천 주기 의존 | 높음 | 낮음 | 낮음 | 합법적 | ✅ 적합(외부) |
| 🔴 파일 배치 | 일/주 단위 | 높음 | 매우 낮음 | 중간 | 계약 기반 | ⚠️ 보조용 |
| 🔴 웹 스크래핑 | 가변 | 낮음 | 중간 | 매우 높음 | ToS·저작권 위험 | ❌ 비추천 |
⚠️ API ≠ 실시간! API는 데이터를 가져오는 '통로'이고, 신선도는 원천 데이터의 생산 주기에 따라 달라집니다.
(ECOS 일자료 vs 실시간 시장데이터 Feed는 비용·신선도가 완전히 다름)
(ECOS 일자료 vs 실시간 시장데이터 Feed는 비용·신선도가 완전히 다름)
4. Build / Buy / Borrow 의사결정 프레임
| 항목 | 🔨 Build (자체) | 💳 Buy (구매) | 🌐 Borrow (외부 무료) |
|---|---|---|---|
| 초기 비용 | 🔴 매우 높음 | 🟡 중간 | 🟢 거의 없음 |
| Time to Value | 🔴 6개월~1년 | 🟢 1~4주 | 🟢 1일~1주 |
| 차별화 가능성 | 🟢 매우 높음 | 🔴 경쟁사도 동일 | 🔴 누구나 사용 |
| 벤더 종속성 | 🟢 없음 | 🔴 벤더에 묶임 | 🟡 API 변경 위험 |
🎯 3가지 판단 기준
1️⃣ 차별화 자산인가? → YES: Build 우선 고려
2️⃣ 시간이 중요한가? (3개월 내 필요) → YES: Buy 또는 Borrow
3️⃣ 예산이 있는가? → YES: Buy 가능 / NO: Build 또는 Borrow
1️⃣ 차별화 자산인가? → YES: Build 우선 고려
2️⃣ 시간이 중요한가? (3개월 내 필요) → YES: Buy 또는 Borrow
3️⃣ 예산이 있는가? → YES: Buy 가능 / NO: Build 또는 Borrow
5. 한국 핀테크 규제 4종 체크리스트
| 규제 | 핵심 내용 | 데이터 수집 영향 |
|---|---|---|
| 개인정보보호법 | 수집·이용·제공 시 동의 필수 | 거의 모든 1st Party 수집에 영향 |
| 신용정보법 | 신용정보의 수집·관리에 추가 규제 | 신용평가·금융거래 데이터 수집 |
| 마이데이터 | 본인 동의 기반 타사 금융정보 통합 조회 사업 | 2nd Party 데이터의 합법 통로 (면허 필수) |
| 망분리 | 금융사 내부망과 인터넷망 분리 | 외부 API 직접 호출 제약 (보안 통로 필요) |
⚠️ 멋진 데이터 수집 기획안을 만들고 개발까지 끝낸 후, 법무팀에서 'NO'를 받는 게 가장 흔한 실수입니다.
수집 전략 = 출처 결정 + 규제 통과 가능성 검증. 둘 중 하나만 빠져도 프로젝트는 멈춥니다.
수집 전략 = 출처 결정 + 규제 통과 가능성 검증. 둘 중 하나만 빠져도 프로젝트는 멈춥니다.
📝 내용 정리
데이터 수집 기획안 작성 7단계
1
비즈니스 질문 정의 — 측정 가능한 질문 1개. 예) "신청 완료율 차이는?"
2
필요 데이터 나열 — 5~7개 항목. 없으면 답 못 하는 값만.
3
출처 분류 — 각 항목을 1st / 2nd / 3rd Party로 분류, 후보 출처 2~3개 나열.
4
수집 방식 결정 — SDK / 서버 로그 / API / 파일 배치 / 스크래핑 중 선택 + 이유.
5
Build / Buy / Borrow 결정 — 결정 트리 활용. 결정 근거 1줄.
6
규제 체크 — 개보법·신정법·마이데이터·망분리 4가지 통과 여부 점검.
7
리스크 & 백업 플랜 — 1차 출처 장애 시 대안 출처 1개 이상.
🔑 핵심 질문: 이 계획을 받은 데이터 엔지니어가 추가 질문 없이
"어디서 무엇을 어떻게 가져올지" 이해할 수 있는가?
"어디서 무엇을 어떻게 가져올지" 이해할 수 있는가?
핀테크 현업 사례 요약
| 기업 | 서비스 | 수집 전략 핵심 |
|---|---|---|
| 토스 | 자산 통합 화면 | 1st(자체 거래) + 2nd(마이데이터 API) + 3rd(ECOS 환율) 결합 |
| 카카오페이 | 가맹점 일일 정산 | VAN사 매입 데이터를 SFTP 파일 배치로 수신 (실시간 불필요) |
| 뱅크샐러드 | 신용점수 무료 조회 | NICE/KCB API 구매(Buy) — 자체 구축은 규제·시간·정확도 모두 불리 |
💡 오늘 기억해야 할 가장 중요한 내용
1. 핀테크 데이터의 황금 조합
서버 로그(자체) + API(외부) = 베이스라인. SDK는 분석 보조, 파일 배치는 B2B 보조, 스크래핑은 회피.
서버 로그(자체) + API(외부) = 베이스라인. SDK는 분석 보조, 파일 배치는 B2B 보조, 스크래핑은 회피.
2. SDK와 서버 로그가 다를 땐?
항상 서버 로그가 정답(SSOT). 서버만이 "실제로 돈이 움직인" 기록이기 때문.
항상 서버 로그가 정답(SSOT). 서버만이 "실제로 돈이 움직인" 기록이기 때문.
3. Build / Buy / Borrow의 출발점
"이게 우리 회사의 차별화 자산인가?" 한 가지 질문으로 방향이 결정된다.
"이게 우리 회사의 차별화 자산인가?" 한 가지 질문으로 방향이 결정된다.
4. 규제는 맨 마지막이 아니라 맨 처음에 확인해야 한다
특히 마이데이터(면허 필수), 개보법(수집 목적 명확화), 망분리(외부 API 호출 경로)는 PM이 직접 챙겨야 하는 항목.
특히 마이데이터(면허 필수), 개보법(수집 목적 명확화), 망분리(외부 API 호출 경로)는 PM이 직접 챙겨야 하는 항목.
5. 환율 데이터 의사결정 예시 (퀴즈 핵심)
일 1회 충분 → 한국은행 ECOS API (무료, 신뢰성 ↑)
분·초 단위 필요 → 실시간 시장데이터 벤더 (유료, 신선도 ↑)
구글 크롤링 → ❌ ToS 위반 + 정확도 보장 안 됨
일 1회 충분 → 한국은행 ECOS API (무료, 신뢰성 ↑)
분·초 단위 필요 → 실시간 시장데이터 벤더 (유료, 신선도 ↑)
구글 크롤링 → ❌ ToS 위반 + 정확도 보장 안 됨
🔗 관련 링크
📊 한국은행 ECOS API — 환율, 금리 등 거시경제 데이터 (무료)
https://ecos.bok.or.kr/api/
https://ecos.bok.or.kr/api/
📋 금감원 DART 전자공시 API — 상장사 재무·공시 데이터 (무료)
https://opendart.fss.or.kr/
https://opendart.fss.or.kr/
🏛️ 공공데이터포털 — 정부 공공 데이터 통합 제공
https://www.data.go.kr/
https://www.data.go.kr/
🔐 개인정보보호위원회 — 개보법 가이드라인 및 지침
https://www.pipc.go.kr/
https://www.pipc.go.kr/
💳 금융위원회 마이데이터 포털 — 마이데이터 사업자 정보 및 규정
https://www.mydatacenter.or.kr/
https://www.mydatacenter.or.kr/
오후 개인 과제 - 데이터 수집 기획안 작성
11-12-13-14-16회차 연결
'구름 핀테크 교육' 카테고리의 다른 글
| [17일차] 기술 사업/예측과 로드맵, 비즈니스 모델 (0) | 2026.05.26 |
|---|---|
| [16일차] API를 활용한 데이터 수집 (0) | 2026.05.22 |
| [14일차] 데이터 파이프라인 개념 (0) | 2026.05.20 |
| [13일차] 파이프라인 AB테스트 (0) | 2026.05.19 |
| [12일차] 데이터 요구사항 정의서 (0) | 2026.05.18 |