🎯 정치인 평가 시스템 - 전체 프로세스

정치인 기본 정보 준비부터 상세평가보고서 생성까지 전체 프로세스 시각화

작성일: 2026-02-08 | 최종 업데이트: 2026-02-15 | V40

📊 전체 프로세스 개요

Phase 0: 준비 (API 키, DB 연결 검증)

Phase 1: 정치인 정보 등록 (MD 작성 → DB INSERT)

Phase 2: 데이터 수집 (Gemini 500~600 + Naver 500~600 = 1,000~1,200개)

Phase 3: 수집 검증 (validate_v40_fixed.py --no-dry-run)

Phase 2-2: 검증 후 조정 (adjust_v40_data.py, 균형 맞추기)

Phase 3: AI 평가 (4 AIs × 1,000~1,200 = 4,000~4,800개)

Phase 3-1: 평가 검증 (95% 이상)

Phase 4: 점수 계산 (calculate_v40_scores.py)

Phase 5: 보고서 생성 (generate_report_v40.py)

▼

🎯 Phase 0: 준비 단계 (Prepare) ▼

목표: API 키 확인, DB 연결 검증, 테이블 사전 생성 확인

필수 인증 및 인프라

구분	요소	설명
수집용 인증	Gemini CLI	Google 계정 인증 (1회 로그인)
수집용 인증	Naver API	CLIENT_ID / CLIENT_SECRET
평가용 인증	Claude Code CLI	Anthropic 계정 로그인
평가용 인증	Gemini CLI	Google 계정 인증 (수집과 동일)
평가용 인증	OpenAI API	OPENAI_API_KEY (ChatGPT/Codex)
평가용 인증	xAI API	XAI_API_KEY (Grok)
인프라	Supabase	SUPABASE_URL, SUPABASE_SERVICE_ROLE_KEY
DB	4개 테이블	politicians, collected_data_v40, evaluations_v40, ai_final_scores_v40

준비 작업

Phase 0: 준비

1. API 키 / 인증 확인

Gemini CLI 로그인 상태 확인
Naver CLIENT_ID/SECRET 환경변수 확인
OPENAI_API_KEY 환경변수 확인
XAI_API_KEY 환경변수 확인
SUPABASE_URL, SUPABASE_SERVICE_ROLE_KEY 확인

2. DB 테이블 존재 확인

politicians ✓
collected_data_v40 ✓
evaluations_v40 ✓
ai_final_scores_v40 ✓

3. 정치인 정보 MD 파일 작성

instructions/1_politicians/{이름}.md
politician_id 생성 (UUID 앞 8자리, TEXT 타입)

▼

📝 Phase 1: 정치인 정보 등록 ▼

1. 정치인 기본 정보 작성

📂 저장 경로:

설계문서_V7.0/V40/instructions/1_politicians/

박주민.md
조은희.md (예시)

내용:

politician_id (8자리 hex, TEXT 타입)
성명, 성별, 생년월일
현 직책, 소속 정당
출마 신분, 출마 직종
지역, 지역구
특별 지시사항 (수집 시 주의점, 평가 시 주의점)
알려진 논란/이슈, 알려진 성과
출처 힌트 (OFFICIAL / PUBLIC 분리)

2. DB 등록

📊 politicians 테이블 INSERT

id: '12345678' (TEXT 8자리 hex)
name: '한동훈'
party: '국민의힘'
position: '당대표'
...

⚠️ INTEGER/BIGINT 절대 금지!

✅ TEXT(8자리 hex) 필수

▼

🔍 Phase 2: 데이터 수집 (2개 채널, 카테고리당 100개 + 버퍼 20%) ▼

🤖 Gemini 수집 (50%)

Google Search

⚠️ Gemini CLI Direct

OFFICIAL: 30개

PUBLIC: 20개

카테고리별 50개

총 500개 (최대 600개)

📋 가이드 참조:

GEMINI_CLI_수집_가이드

🔍 Naver 수집 (50%)

Naver Search API

✅ 자동 실행

OFFICIAL: 10개

PUBLIC: 40개

카테고리별 50개

총 500개 (최대 600개)

🚀 스크립트:

collect_naver_v40_final.py

센티멘트 분배 규칙

유형	Official	Public	합계	버퍼 포함
Negative	4개 (10%)	12개 (20%)	16개	20개
Positive	4개 (10%)	12개 (20%)	16개	20개
Free	32개 (80%)	36개 (60%)	68개	80개
합계	40개	60개	100개	120개

⚠️ "rating 없이 수집만!" (수집 ≠ 평가)

⚠️ Official 기간: 4년 | Public 기간: 2년

collected_data_v40 테이블에 저장

총 1,000개 (최대 1,200개, 버퍼 20%)

(Gemini 500~600 + Naver 500~600)

각 데이터:

id (UUID)
politician_id, politician_name
category (10개 중 하나)
title, content, source_url
data_type (OFFICIAL/PUBLIC)
sentiment (negative/positive/free)
collector_ai (Gemini/Naver)
published_date
created_at
⚠️ rating 없음 (평가는 별도)

▼

✅ Phase 3: 수집 검증 (validate_v40_fixed.py --no-dry-run) ▼

데이터 검증

✓ URL 유효성 (GET stream=True)
✓ 도메인 검증
- OFFICIAL: .go.kr 등
- PUBLIC: 언론, 블로그 등
✓ 기간 제한
- OFFICIAL: 최근 4년
- PUBLIC: 최근 2년
✓ 필수 필드 (title, content, url)
✓ 가짜 URL 패턴 탐지
✓ Sentiment 비율 검증:
- OFFICIAL: negative ≥10%, positive ≥10%
- PUBLIC: negative ≥20%, positive ≥20%
✓ 고급 중복 제거:
- 같은 AI + 같은 URL/제목 → 제거
- 다른 AI + 같은 URL/제목 → 유지
✓ 목표: 카테고리당 100개 (버퍼 20%, 최대 120개)
정치인당 1,000개 (최대 1,200개)

검증 실패?

Yes ↓

재수집
(누락만)

No ↓

통과

▼

⚖️ Phase 2-2: 검증 후 조정 (adjust_v40_data.py) ▼

균형 확인 및 조정 (최대 4회, 포기 규칙 적용)

목표: AI별 500-600개, 카테고리별 50-60개/AI

확인 항목:

AI별 데이터 개수 (Gemini/Naver 각각)
카테고리별 개수 (10개 × AI별 50-60개)

자동 조정 (최대 4회):

60개 초과 → 오래된 순 자동 삭제
50개 미만 → 재수집 필요

포기 규칙 (4회 후):

50+개: 정상 평가
25-49개: 부족 허용, 보유 데이터로 평가
<25개: 포기, leverage score 0 처리 (60점)

명령어:

adjust_v40_data.py --politician_id xxx (자동)
recollect_gemini_v40.py (수동 재수집)
recollect_naver_v40.py (수동 재수집)

💡 핵심: 처음부터 버퍼 목표(60개)로 수집 → Phase 2-2 거의 스킵 가능!

▼

🤖 Phase 3: AI 평가 (4개 AI 독립 평가, 전부 CLI 방식) ▼

7. 4개 AI가 각각 1,000~1,200개 전체 평가 (독립적)

💡 핵심: 수집 시점 ≠ 평가 시점 (세션 분리 = 객관성)

4개 AI 공통점

✅ 실행 방식: 전부 CLI/Subprocess
✅ 배치 크기: 25개씩 처리
✅ 최적화: Pre-filtering 적용 (중복 평가 제외)
✅ 저장 함수: common_eval_saver.py 사용

4개 AI 차이점 (API 키 필요성)

AI	CLI 방식	API 키 필요	이유
Claude	Claude Code CLI Direct	❌ 불필요	계정 로그인으로 CLI 직접 사용
Gemini	Gemini CLI Subprocess	❌ 불필요	계정 인증으로 CLI 직접 사용
ChatGPT	Codex CLI Direct	✅ OPENAI_API_KEY	API 호출 필수 (토큰 비용)
Grok	curl CLI Direct (subprocess)	✅ XAI_API_KEY	API 호출 필수 (API 비용)

🔵 Claude 평가

Claude Code CLI Direct

🔓 API키 불필요

Haiku 4.5

1,000~1,200개

(100~120×10)

8등급, X=제외

🟢 ChatGPT 평가

Codex CLI Direct

🔐 OPENAI_API_KEY 필수

gpt-5.1-codex-mini

1,000~1,200개

(100~120×10)

8등급, X=제외

🔴 Grok 평가

curl CLI Direct (subprocess)

🔐 XAI_API_KEY 필수

grok-3

1,000~1,200개

(100~120×10)

8등급, X=제외

🟡 Gemini 평가

Gemini CLI Direct

🔓 API키 불필요

2.0 Flash

1,000~1,200개

(100~120×10)

8등급, X=제외

🔧 기술적 방식 비교: CLI vs API

비교 항목	CLI 방식 (✅ 채택)	API 방식 (❌ 폐기)
인증 방식	Account Login / API Key (1회 설정)	API Key (매 요청)
실행 방식	Subprocess 호출 (단순)	HTTP API 요청 (복잡)
할당량/제한	Claude/Gemini 무제한 / ChatGPT/Grok 제한 적용	RPM 분당 제한 (15 req/min)
사용 편의성	1회 로그인/설정, 재로그인 불필요	API 키 관리 필수 (만료/보안)
코드 복잡도	단순 (10-20줄, subprocess.run())	복잡 (50-100줄, retry)

💰 비용 비교: API vs CLI

AI	이전 방식 (API)	현재 방식 (CLI)	절감률
Claude	Anthropic API (claude-3-haiku) $0.75	Claude Code CLI (Haiku 4.5) $0	100%
Gemini	Google API (2.0 Flash) $0.19 + 제한	Gemini CLI Subprocess (2.0 Flash) $0	100%
ChatGPT	OpenAI API (gpt-4) $45	Codex CLI (gpt-5.1-codex-mini) $1.125	97.5%
Grok	Agent Tools API 미공개	xAI API (grok-3) 미공개	-
총계	~$46/1,000개	~$1.13/1,000개	97.5%

✅ 핵심 인사이트: ChatGPT gpt-4 ($45) → gpt-5.1-codex-mini ($1.125) = 40배 저렴

🚀 성능 최적화

최적화	적용 AI	설명	효과
배치 평가	4개 AI 전부	25개씩 묶어서 평가	속도 10x 향상
Pre-filtering	4개 AI 전부	이미 평가된 데이터 사전 제외	중복 평가 0%, 5x 향상
자동 재시도	ChatGPT	Foreign key 오류 시 배치 5개 자동 재시도	안정성 100%
공통 저장 함수	4개 AI 통합	common_eval_saver.py (통합 저장 로직)	코드 중복 제거

평가 등급 체계

등급	+4	+3	+2	+1	-1	-2	-3	-4	X
판단	탁월	우수	양호	보통	미흡	부족	매우부족	극히부족	제외
점수	+8	+6	+4	+2	-2	-4	-6	-8	-

8. evaluations_v40 테이블에 저장

총 4,000~4,800개 평가 (4 AIs × 1,000~1,200개)

각 평가:

id (UUID)
politician_id, politician_name, category
collected_data_id (FK → collected_data_v40) ⭐
evaluator_ai (Claude/ChatGPT/Grok/Gemini)
rating: 8등급 (+4,+3,+2,+1,-1,-2,-3,-4, 0 없음)
X = 제외(평가 불가, 등급 아님)
reasoning (평가 근거)
evaluated_at

💡 collected_data_id로 수집 데이터와 연결!

▼

✅ Phase 3-1: 평가 검증 단계 (95% 이상) ▼

평가 완성도 확인

기준: 95% 이상

계산: (평가 개수 / 기대값) × 100

기대값 = 4 AI × 실제 수집 개수

예: 수집 1,000개 → 기대 4,000개

3,800개 / 4,000 = 95%

⚠️ X(제외)는 평가 불가 항목 → 95% 기준은 X 발생을 허용

95% 미달?

Yes ↓

재평가
(누락만)

No ↓

통과

▼

🎯 Phase 4: 점수 계산 단계 (calculate_v40_scores.py) ▼

10. AI별 카테고리 점수 계산

각 AI, 각 카테고리:

Step 1: Rating 평균

평균 = Σ(Rating) / 평가 개수 (X 제외)

범위: -4 ~ +4

Step 2: 점수 환산

점수(Score) = Rating 평균 × 2

범위: -8 ~ +8

Step 3: 카테고리 점수 (20~100점)

카테고리 점수 = (6.0 + 평균 Rating Score × 0.5) × 10 = (평균 Rating Score × 0.5 + 6.0) × 10 = 평균 Rating Score × 5 + 60

예: Claude, 전문성

Rating 평균 +2.77 → Score 5.54

→ (5.54 × 0.5 + 6.0) × 10 = 87.7 ≈ 88점

11. AI별 최종 점수 계산

최종 점수 = round(min(10개 카테고리 점수 합산, 1000))

예: Claude

77+76+79+65+71+72+73+74+76+75 = 738점

12. 4 AIs 평균 점수 계산

평균 = (Claude + ChatGPT + Grok + Gemini) / 4

예: (738 + 881 + 835 + 807) / 4 = 816점

Bayesian Prior (베이지안 사전확률) 적용

공식 분해:

카테고리 점수 = 평균 Rating Score × COEFFICIENT + PRIOR × 10 = 평균 Rating Score × 5 + 60

상수	값	역할
PRIOR	6.0	기본 점수 60점 (베이지안 사전확률)
COEFFICIENT	0.5	범위 스케일링

Prior = 6.0의 의미:

데이터 부족 시 안전장치 (기본값 60점)
극단값 완화 (Prior가 중심으로 당김)
신규 정치인도 60점(보통)에서 공정 시작
"선출직 공직자의 기본 신뢰"를 수치화

상황	Rating Score	카테고리 점수	의미
전부 +4 (최고)	+8	8×5+60 = 100점	증거가 Prior를 최대로 끌어올림
긍정/부정 균형	0	0×5+60 = 60점	증거가 Prior를 변경하지 못함
전부 -4 (최저)	-8	-8×5+60 = 20점	증거가 Prior를 최대로 끌어내림

13. 최종 등급 결정 (M~L, 10단계)

등급	점수 범위	의미
M (Mugunghwa)	920~1000점	최우수
D (Diamond)	840~919점	우수
E (Emerald)	760~839점	양호
P (Platinum)	680~759점	보통 상
G (Gold)	600~679점	보통
S (Silver)	520~599점	보통 하
B (Bronze)	440~519점	개선 필요
I (Iron)	360~439점	미흡
Tn (Tin)	280~359점	부족
L (Lead)	200~279점	최하

14. ai_final_scores_v40 테이블에 저장

저장 내용

id (UUID)
politician_id, politician_name
ai_category_scores (JSONB) ⭐
{
"Claude": {"expertise": 77, "leadership": 76, ...},
"ChatGPT": {"expertise": 89, "leadership": 86, ...},
"Grok": {...}, "Gemini": {...}
}
ai_final_scores (JSONB) ⭐
{"Claude": 738, "ChatGPT": 881, "Grok": 835, ...}
final_score: 816
grade: "E"
calculated_at

▼

📄 Phase 5: 보고서 생성 단계 (generate_report_v40.py) ▼

15. 데이터 조회 (4개 테이블 조인)

SELECT * FROM politicians (기본 정보) JOIN collected_data_v40 (1,000~1,200개 수집 데이터) ON politicians.id = collected_data_v40.politician_id JOIN evaluations_v40 (4,000~4,800개 평가) ON collected_data_v40.id = evaluations_v40.collected_data_id JOIN ai_final_scores_v40 (최종 점수) ON politicians.id = ai_final_scores_v40.politician_id WHERE politician_id = '...' 💡 collected_data_id로 수집↔평가 연결!

16. AI별 통계 계산

AI별 평균 등급 (+2.77, +2.32, +2.10, +1.50)
AI별 X 비율 (20%, 21.8%, 16.6%, 29.3%)
AI별 긍정/부정 비율
AI별 rating 분포 (+4: 253개, +3: 308개, ...)

17. 카테고리별 분석 (10개)

각 카테고리:

AI별 점수 비교 (Claude 77, ChatGPT 89, ...)
대표 긍정 평가 사례 (Top 10)
대표 부정 평가 사례 (Top 5)
AI 간 평가 차이 분석 (표준편차)

18. 마크다운 보고서 생성 (V40.1 - 8섹션 구조)

📄 보고서 구성 (8섹션, ~790줄):

정치인 프로필 (~30줄)
평가 요약 (~80줄)
★ 강점 분석 TOP 3~5 (~180줄) ← 주력!
★ 약점 분석 TOP 3 (~120줄) ← 주력!
카테고리별 요약 (~150줄, 축소!)
데이터 분석 (~120줄)
한계 및 유의사항 (~50줄)
참고자료 및 마무리 (~60줄)

19. 파일 저장

📂 저장 경로:

설계문서_V7.0/V40/보고서/

{정치인명}_{YYYYMMDD}.md

예) 박주민_20260206.md

📄 파일 형식: Markdown (.md)

📊 파일 크기: 약 50~100KB

▼

✅ 완료!

📊 최종 결과물:

DB에 정치인 정보 저장 (politicians)
DB에 1,000~1,200개 수집 데이터 저장 (collected_data_v40)
DB에 4,000~4,800개 평가 저장 (evaluations_v40)
DB에 최종 점수 저장 (ai_final_scores_v40)
📄 상세평가보고서.md 파일 생성

📋 데이터 테이블 관계도

politicians

정치인 기본 정보

PK id (TEXT) - 8자리 hex

name (TEXT)

party (TEXT)

position (TEXT)

collected_data_v40

수집 데이터 (rating 없음)

PK id (UUID)

FK politician_id → politicians.id

category (TEXT)

title, content, source_url

data_type (OFFICIAL/PUBLIC)

collector_ai (Gemini/Naver)

sentiment (negative/positive/free)

created_at (TIMESTAMP)

⚠️ rating 필드 없음 (수집 단계)

N (4 AIs)

evaluations_v40

평가 결과 (rating 있음)

PK id (UUID)

FK politician_id

FK collected_data_id ⭐

category (TEXT)

evaluator_ai (4개 AI)

✅ rating (8등급, X=제외)

reasoning (TEXT)

evaluated_at (TIMESTAMP)

ai_final_scores_v40

최종 점수 (1:1 관계)

PK id (UUID)

FK politician_id ⭐ (1:1)

ai_category_scores (JSONB)

ai_final_scores (JSONB)

✅ final_score (200-1000)

grade (M~L)

calculated_at (TIMESTAMP)

핵심 포인트:

1:N 관계: collected_data_v40.id → evaluations_v40.collected_data_id (수집 데이터 1개 → 4개 AI 평가)
1:1 관계: politicians.id → ai_final_scores_v40.politician_id (정치인 1명 → 최종 점수 1개)
rating 위치: 수집 테이블(X) vs 평가 테이블(O)
데이터 흐름: 수집 → 평가 → 점수 계산 → 보고서

🎯 핵심 포인트 7가지

1️⃣ 세션 분리 = 객관성

수집 시점 (Gemini/Naver) ≠ 평가 시점 (4 AIs)

→ 타이밍 분리로 독립적 판단 보장

2️⃣ 풀링 방식

모든 AI가 카테고리당 100개(버퍼 20%, 최대 120개), 전체 1,000개(최대 1,200개) 평가 (독립적, 배치 25개씩)

→ 편향 상쇄, 균형 잡힌 평가

3️⃣ 2단계 검증

수집 검증 (버퍼 20% 이내, 최대 120%) + 평가 검증 (95% 이상)

→ 품질 보장

4️⃣ DB 분리

수집 테이블 (rating 없음) ≠ 평가 테이블 (rating 있음)

→ collected_data_id로 연결

5️⃣ 점수 계산 4단계

Rating 평균 → 점수(×2) → 카테고리 점수 → 최종 점수

→ 일관된 계산 방식

6️⃣ 4개 테이블 조인

politicians + collected_data_v40 + evaluations_v40 + ai_final_scores_v40

→ 완전한 보고서 생성

7️⃣ CLI 방식 = 97.5% 비용 절감

API ~$46/정치인 → CLI ~$1.13/정치인

📊 단계별 데이터 개수

단계	테이블	데이터 개수	rating 필드
Phase 0	(준비)	API키/DB확인	-
Phase 1	politicians	1개	❌ 없음
Phase 2	collected_data_v40	1,000~1,200개 (버퍼 20%)	❌ 없음
Phase 3	(검증)	중복/위반 제거	-
Phase 2-2	(조정)	AI별 500-600개 균형	-
Phase 3	evaluations_v40	4 AI × 수집 개수 (95% 이상)	✅ 있음 (8등급, X=제외)
Phase 3-1	(검증)	95% 완성도 확인	-
Phase 3	ai_final_scores_v40	1개	❌ 없음 (점수만)
Phase 5	(보고서)	.md 파일 1개	-

🚀 실행 명령어 요약

# Phase 0: 준비 # API 키 및 DB 연결 확인 # .env 파일 확인 (SUPABASE_URL, SUPABASE_SERVICE_ROLE_KEY, OPENAI_API_KEY, XAI_API_KEY 등) # Phase 1: 정치인 등록 # (수동) 정치인 정보 파일 작성 # 위치: 설계문서_V7.0/V40/instructions/1_politicians/박주민.md # (수동) DB에 정치인 정보 INSERT # Phase 2: 수집 # Gemini 수집 (Gemini CLI Subprocess) cd V40/scripts/workflow for i in {1..7}; do python collect_gemini_subprocess.py --politician "박주민" --category expertise sleep 5 done # Naver 수집 (자동) python collect_naver_v40_final.py --politician_id=507226bb --politician_name="박주민" --ai=Naver --category 1 # Phase 3: 검증 cd V40/scripts/core python validate_v40_fixed.py --politician_id=507226bb --politician_name="박주민" --no-dry-run # Phase 2-2: 검증 후 조정 python adjust_v40_data.py --politician_id=507226bb # Phase 4: 평가 # Claude 평가 cd V40/scripts/helpers python claude_eval_helper.py --politician_id=507226bb --politician_name="박주민" --category=expertise --batch_size=25 # ChatGPT 평가 python codex_eval_helper.py --politician_id=507226bb --politician_name="박주민" --category=expertise --batch_size=25 # Grok 평가 python grok_eval_helper.py --politician_id=507226bb --politician_name="박주민" --category=expertise --batch_size=25 # Gemini 평가 cd V40/scripts/workflow python evaluate_gemini_subprocess.py --politician "박주민" --category "expertise" # Phase 3-1: 평가 검증 cd V40/scripts/utils python check_evaluation_status.py --politician "박주민" # Phase 4: 점수 계산 cd V40/scripts/core python calculate_v40_scores.py --politician_id=507226bb --politician_name="박주민" # Phase 5: 보고서 생성 python generate_report_v40.py 507226bb 박주민 # 저장 위치: 설계문서_V7.0/V40/보고서/박주민_20260206.md

📖 참고 문서

V40_전체_프로세스_가이드.md - 전체 프로세스 설명
V40_기본방침.md - 핵심 방침
V40_오케스트레이션_가이드.md - 자동화 가이드
V40_검증후조정_가이드.md - Phase 2-2 상세
AI_기반_정치인_상세평가보고서_생성_가이드_V40.md - 보고서 생성
README.md - V40 개요

부록 1: 10개 카테고리 선정 근거 및 100개 평가 항목 ▼

핵심 프레임워크: CBA (Stoker et al. 2024)

Stoker et al. — University of Southampton, 7개 민주주의 국가 유권자 인지구조 분석

3축: Competence (역량) · Integrity (청렴) · Authenticity (진정성)

PoliticianFinder: CBA 3축 → 10개 카테고리로 확장

참고 연구 및 평가 시스템

연구/시스템	기여
Volden & Wiseman	Center for Effective Lawmaking, 입법 효율성 정량 측정
Transparency International	부패 측정 방법론, 13개 평가 항목
Jacobson (Stanford)	언론의 정치인 스캔들/성과 보도 분석
Slough et al. (World Bank)	개발도상국 책임성/대응성 측정
LEVER	유럽 지방선거 평가, 대응성/투명성 방법론
UN SDG 16	투명성, 책임성, 공정성
OECD	공공 부문 거버넌스 원칙

CBA 3축과 10개 카테고리 매핑

#	카테고리	CBA 대분류	참고 연구
1	전문성 (Expertise)	Competence	Volden & Wiseman, Stoker et al.
2	리더십 (Leadership)	Competence	Volden & Wiseman, LEVER
3	비전 (Vision)	Competence	Stoker et al., UN SDG 16
4	청렴성 (Integrity)	Integrity	TI, Jacobson
5	윤리성 (Ethics)	Integrity	OECD, Jacobson
6	책임감 (Accountability)	Integrity	Slough et al., UN SDG 16
7	투명성 (Transparency)	Integrity	LEVER, UN SDG 16
8	소통능력 (Communication)	Authenticity	Stoker et al., LEVER
9	대응성 (Responsiveness)	Authenticity	Slough et al., LEVER
10	공익성 (Public Interest)	Authenticity	LEVER, Slough et al.

카테고리별 평가 항목 상세

카테고리 1: Expertise (전문성)

정의: 직무 수행에 필요한 지식, 기술, 경험 보유 수준

#	평가 항목	설명
1-1	최종 학력 수준	박사/석사/학사/전문대 학위
1-2	직무 관련 자격증	변호사, CPA, 교원자격증 등
1-3	관련 분야 경력 연수	공직+민간 경력 합산
1-4	직무 교육 이수	의회/기관 교육 참여 시간
1-5	전문 분야 기고/저서	전문지 기고, 저서 출판
1-6	학술 연구 실적	논문, Google Scholar 피인용
1-7	위키피디아 전문성 기술	학력/경력 조회수
1-8	전문 분야 평가 기록	학술/전문 분야 외부 평가
1-9	위원회 활동 기록	자문위원, 심의위원 활동
1-10	전문성 관련 언론 평가	전문성 키워드 보도

긍정 키워드: 전문가 뉴스, 경력 우수, 법안 발의 성과, 정책 전문

부정 키워드: 학력 위조, 경력 논란, 무능, 전문성 부족

자유 키워드: 학력 성명서, 경력 발표, 이력 기자회견, 프로필

카테고리 2: Leadership (리더십)

정의: 조직과 사람을 효과적으로 이끌어 목표 달성 능력

#	평가 항목	설명
2-1	법안 발의 건수	대표발의 법안 수
2-2	법안 통과율	발의 대비 통과 비율
2-3	위원회 위원장 경험	상임위/특위 위원장
2-4	당직 경력	당대표, 원내대표, 최고위원
2-5	조직 확대 실적	당원 증가, 지지율 상승
2-6	위기 대응 사례	재난/사건 대응 리더십
2-7	정책 추진력	주요 정책 관철 사례
2-8	리더십 관련 언론 평가	리더십 키워드 보도
2-9	의회 협력 활동 기록	여야 협상, 연대 활동
2-10	리더십 관련 평가 기록	리더십 외부 평가

긍정 키워드: 리더십 뉴스, 추진력, 법안 통과, 위기 대응 성공

부정 키워드: 리더십 부재, 조직 분열, 법안 무산, 당내 갈등

자유 키워드: 위원회 활동 성명서, 당직 발표, 의정활동 기자회견

카테고리 3: Vision (비전)

정의: 미래를 예측하고 장기적 목표 제시 능력

#	평가 항목	설명
3-1	중장기 발전 계획	4년 이상 계획 수립 여부
3-2	미래 투자 예산	R&D, 교육, 신산업 예산 비율
3-3	사회 발전 관련 예산	환경, 기후, 복지 예산
3-4	기술 발전 관련 정책	AI, 스마트시티 예산/사업
3-5	미래 정책 제안	혁신, 미래 키워드 정책
3-6	청년층 정책	청년 대상 정책 발의/추진
3-7	해외 사례 벤치마킹	해외 정책 도입 사례
3-8	미래 키워드 보도	혁신, 미래, 디지털 보도
3-9	장기 공약 제시	임기 후에도 지속되는 공약
3-10	비전 관련 연설/기고	미래 비전 연설, 기고문

긍정 키워드: 혁신 뉴스, 미래지향, 비전 제시

부정 키워드: 구태, 비전 부재, 안일

자유 키워드: 정책 방향 성명서, 비전 기자회견

카테고리 4: Integrity (청렴성)

정의: 금전적/물질적 부패 저지르지 않는 자질

#	평가 항목	설명
4-1	금전 관련 형사 판결 내용	뇌물, 횡령, 배임 관련 판결
4-2	재산 신고 변동 현황	재산 증감 내역
4-3	공직자윤리법 관련 기록	공직자윤리위 심의 내용
4-4	정치자금법 관련 기록	선관위 관련 처분 내용
4-5	선거법 관련 기록	선거 관련 위반 내용
4-6	금전 관련 언론 보도	금전/재산 키워드 보도
4-7	한국투명성기구 평가	TI Korea 청렴도 등급
4-8	시민단체 청렴 평가	참여연대 등 청렴 평가
4-9	정치자금 관련 보도	정치자금 키워드 보도
4-10	청렴 관련 평가 기록	청렴 외부 평가

긍정 키워드: 청렴 뉴스, 깨끗한 정치, 청렴도 1위

부정 키워드: 비리 의혹, 뇌물, 횡령, 정치자금 위반

자유 키워드: 재산 신고 성명서, 감사원 발표

카테고리 5: Ethics (윤리성)

정의: 사회적 규범과 도덕적 품위 유지 자질

#	평가 항목	설명
5-1	형사 판결 기록	비부패 형사범죄 판결 내용
5-2	성문제 관련 판결 내용	성범죄 관련 판결
5-3	윤리위원회 심의 내용	의회 윤리위 심의
5-4	국가인권위 시정권고	인권위 권고/결정
5-5	저작 관련 검증 기록	논문, 저서 검증 내용
5-6	공개 발언 태도 관련 보도	발언 태도 키워드 보도
5-7	사회 배려 문제 발언 관련 보도	성별, 지역, 세대 발언 보도
5-8	품위유지 관련 보도	품위 키워드 보도
5-9	시민단체 윤리 평가	윤리성 평가 점수
5-10	가족문제 관련 보도	가족 관련 보도

긍정 키워드: 도덕적 뉴스, 모범, 품위

부정 키워드: 논란, 막말, 표절, 가족 논란

자유 키워드: 인사청문회 성명서, 검증 기자회견

카테고리 6: Accountability (책임감)

정의: 맡은 직무와 약속에 끝까지 책임지는 자세

#	평가 항목	설명
6-1	공약 이행률	(완료 공약/총 공약) × 100
6-2	회의 출석률	본회의, 위원회 출석률
6-3	예산 집행률	(집행액/확정 예산) × 100
6-4	감사 지적 개선	감사 지적 개선 완료율
6-5	매니페스토 평가 등급	공약 이행 평가 등급
6-6	의정 활동 보고 빈도	정기적 활동 보고
6-7	시민단체 의정 감시 평가	참여연대 등 평가 점수
6-8	직무 수행 관련 보도	직무 수행 키워드 보도
6-9	책임 이행 관련 보도	책임 이행 키워드 보도
6-10	사후 책임 이행	실패 인정, 개선 약속 이행

긍정 키워드: 공약 이행 뉴스, 책임 완수, 성실

부정 키워드: 공약 불이행, 직무 태만, 책임 회피

자유 키워드: 공약 성명서, 의정활동 기자회견, 출석

카테고리 7: Transparency (투명성)

정의: 정보를 투명하게 공개하고 숨기지 않는 자세

#	평가 항목	설명
7-1	정보공개 청구 응답률	정보공개포털 응답률
7-2	회의록 공개율	회의록 완전 공개 비율
7-3	재산 공개 성실도	재산 상세 기재 여부
7-4	예산 집행 상세 공개	세목 공개 수준
7-5	자료 제출 성실성 관련 보도	청문회 등 자료 제출 관련
7-6	정보공개센터 평가	정보공개 우수 사례 등재
7-7	투명성 관련 보도	투명, 공개 키워드 보도
7-8	정보공개 관련 보도	비공개 결정 관련 보도
7-9	언론 대응 투명성	기자회견, 질의응답 참여
7-10	일정 공개 수준	공식 일정 사전 공개

긍정 키워드: 투명 공개 뉴스, 정보공개 우수, 공개 행정

부정 키워드: 자료 제출 거부, 비공개, 은폐

자유 키워드: 정보공개 성명서, 재산 신고 기자회견, 회의록

카테고리 8: Communication (소통능력)

정의: 국민과 효과적으로 대화하고 의견 교환 능력

#	평가 항목	설명
8-1	시민 간담회 개최	연간 간담회 건수
8-2	공청회/토론회 개최	연간 공청회/토론회 건수
8-3	공식 소통 채널 운영	홈페이지, SNS 운영 개수
8-4	시민 제안 수용	제안 수용 건수/비율
8-5	SNS 소통 활동	팔로워 × 참여율
8-6	SNS 댓글 응답	댓글 응답 건수/비율
8-7	토론 참여 평가	토론 능력 언론 평가
8-8	소통 적극성 관련 보도	소통 키워드 보도
8-9	경청 자세 평가	경청, 공감 관련 평가
8-10	소통 관련 평가 기록	소통 외부 평가

긍정 키워드: 소통 뉴스, 친근, 소통왕

부정 키워드: 불통, 소통 부재, 권위적

자유 키워드: 인터뷰 성명서, SNS 발표

카테고리 9: Responsiveness (대응성)

정의: 민원/요구/피드백에 신속하고 적절하게 대응 능력

#	평가 항목	설명
9-1	주민참여예산 규모	참여예산 금액
9-2	정보공개 처리 기간	평균 처리 일수
9-3	주민 제안 반영	반영 건수/비율
9-4	지역 현안 대응	현장 점검, 대책 발표 건수
9-5	재난 대응 실적	재난 현장 대응 평가
9-6	위기 대응 보도	위기 대응, 재난 대응 보도
9-7	현장 방문 보도	현장 방문 키워드 보도
9-8	민원 처리 만족도	민원 처리 만족도 조사
9-9	대응 속도 관련 보도	대응 속도 키워드 보도
9-10	현장 대응 관련 보도	재난 시 현장 대응 보도

긍정 키워드: 민원 해결 뉴스, 신속 대응, 국민 목소리 경청

부정 키워드: 민원 무시, 대응 부재, 국민 외면

자유 키워드: 민원 처리 성명서, 요구사항 기자회견, 청원 답변

카테고리 10: Public Interest (공익성)

정의: 공익을 우선시하고 사회에 기여하는 자세

#	평가 항목	설명
10-1	사회복지 예산 비율	(복지 예산/전체 예산) × 100
10-2	취약계층 지원 프로그램	장애/노인/아동 지원 사업
10-3	환경/기후 예산	환경 예산 비율/증가율
10-4	지역 균형 발전 예산	낙후 지역 투자 비율
10-5	공익 활동 보도	봉사, 취약계층 보도
10-6	사회공헌 SNS 게시	공익 게시물 비중
10-7	공익 법안 발의	공익 목적 법안 발의 실적
10-8	이익 상충 관련 보도	이익 상충 키워드 보도
10-9	지역 균형 관련 보도	지역 균형 키워드 보도
10-10	공익 관련 평가 기록	공익 외부 평가

긍정 키워드: 공익 활동 뉴스, 사회 공헌, 약자 보호

부정 키워드: 특혜, 특정 이익, 공익 외면

자유 키워드: 복지 정책 성명서, 사회 활동 기자회견, 공익 사업

부록 2: 베이지안 이론과 V40 평가 시스템 ▼

1. 베이즈 정리 (Bayes' Theorem)

P(H|D) = P(D|H) × P(H) / P(D)

기호	이름	의미
P(H)	Prior (사전 확률)	데이터를 보기 전의 믿음
P(D\|H)	Likelihood (우도)	가설이 참일 때 이 데이터가 나올 확률
P(H\|D)	Posterior (사후 확률)	데이터를 본 후 갱신된 믿음
P(D)	Evidence (증거)	정규화 상수

핵심 구조: 사후 믿음 = 사전 믿음 × 관측 데이터의 영향

2. V40이 베이지안에서 가져온 것

첫째: "사전 믿음(Prior)"이라는 개념

베이지안 이론: 데이터를 보기 전에도 합리적인 믿음이 존재
빈도주의(Frequentist): 오직 관측된 데이터만이 근거
V40의 선택: 베이지안 접근
근거: 정치인 평가에서 데이터 전에 알 수 있는 것 — "선거를 통해 국민이 선택한 사람"
Prior = 6.0 = "선출직 공직자의 기본 신뢰"를 수치화

둘째: "사전 믿음 + 데이터 = 갱신된 믿음"이라는 결합 구조

카테고리 점수 = Prior + 데이터 기여분 = 60 + 평균 Rating Score × 5

Prior만으로 결정 안 됨, 데이터만으로도 결정 안 됨 → 둘의 결합 = 베이지안 기본 원리

셋째: "증거의 부재 ≠ 부재의 증거"라는 인식론

데이터 없는 정치인 → 0점이 아닌 60점(보통)
"아직 모른다"와 "평가했는데 나쁘다"를 구분
베이지안 인식론의 핵심 원칙

3. V40이 베이지안에서 가져오지 않은 것: 동적 갱신

정통 베이지안: 데이터 축적 시 Prior 감소, 최종적으로 데이터가 결론 지배

V40 설계: Prior는 고정 (데이터 10개든 10,000개든 Prior 기여분 항상 60점)

가져오지 않은 이유: 정치 도메인의 본질

이유 1: 정치인이라는 존재의 전제

Prior 6.0 = "선출직 공직자의 기본 신뢰"
이 신뢰는 데이터가 쌓여도 사라지지 않음
법정의 무죄 추정처럼 원칙으로서 유지

이유 2: 신인의 지속적 유입

매 선거마다 새 정치인 대거 진입
동적 계수 적용 시, 데이터 많은 중진과 적은 신인 비교 불가
고정 Prior = 모든 정치인에 동일 공식 → 일관성과 비교 가능성 보장

4. V40의 정확한 위치

베이지안 이론 요소	적용 여부	근거
사전 믿음(Prior) 존재	✅ 적용	선출직의 민주적 기본 신뢰
Prior + Data = Posterior 결합	✅ 적용	60 + Rating Score × 5 = 점수
증거 부재 ≠ 부재의 증거	✅ 적용	데이터 없는 정치인 ≠ 0점
데이터 축적 시 Prior 감소	❌ 미적용	민주적 신뢰 불소멸 + 신인 유입 통일 필요

한 문장 요약: V40은 베이지안에서 "합리적 사전 믿음을 명시하고 데이터와 결합"하는 핵심 원리를 적용하되, Prior의 동적 감소는 정치 도메인 본질(선출직의 기본 신뢰, 신인의 지속적 유입)에 맞지 않으므로 고정 기준선으로 운용.

부록 3: 평가 시스템의 검증된 선거 영향 (70년간 실증) ▼

주요 실증 연구

연구	대상	발견
Garthwaite & Moore (2013)	2008 Obama 경선	종합 평가 → 약 100만 표 증가
Schuster (2023)	1960-1980 대통령 선거	신문사 종합 평가 → 2,000만 표 이동
DeLuca / Harvard (2022)	1950-2020 전체 선거	종합 평가 → 3.8-8.6%p 득표율 증가
Volden & Wiseman (2014)	"가장 효과적인 의원 TOP 10"	전원 재선 성공
LCV (2012-2024)	환경 평가	낮은 의원 → 70-84% 패배율

핵심 결론

종합 평가가 단일 지표보다 강력함 | 대통령/의회/지방선거 모두 검증됨

📊 전체 프로세스 개요

필수 인증 및 인프라

준비 작업

1. API 키 / 인증 확인

2. DB 테이블 존재 확인

3. 정치인 정보 MD 파일 작성

1. 정치인 기본 정보 작성

2. DB 등록

🤖 Gemini 수집 (50%)

🔍 Naver 수집 (50%)

센티멘트 분배 규칙

collected_data_v40 테이블에 저장

데이터 검증

균형 확인 및 조정 (최대 4회, 포기 규칙 적용)

4개 AI 공통점

4개 AI 차이점 (API 키 필요성)

🔵 Claude 평가

🟢 ChatGPT 평가

🔴 Grok 평가

🟡 Gemini 평가

🔧 기술적 방식 비교: CLI vs API

💰 비용 비교: API vs CLI

🚀 성능 최적화

평가 등급 체계

각 평가:

평가 완성도 확인

10. AI별 카테고리 점수 계산

11. AI별 최종 점수 계산

12. 4 AIs 평균 점수 계산

Bayesian Prior (베이지안 사전확률) 적용

13. 최종 등급 결정 (M~L, 10단계)

14. ai_final_scores_v40 테이블에 저장

15. 데이터 조회 (4개 테이블 조인)

16. AI별 통계 계산

17. 카테고리별 분석 (10개)

18. 마크다운 보고서 생성 (V40.1 - 8섹션 구조)

19. 파일 저장

✅ 완료!

📋 데이터 테이블 관계도

🎯 핵심 포인트 7가지

1️⃣ 세션 분리 = 객관성

2️⃣ 풀링 방식

3️⃣ 2단계 검증

4️⃣ DB 분리

5️⃣ 점수 계산 4단계

6️⃣ 4개 테이블 조인

7️⃣ CLI 방식 = 97.5% 비용 절감

📊 단계별 데이터 개수

🚀 실행 명령어 요약

📖 참고 문서

✅ 체크리스트

Phase 0: 준비 단계

Phase 1: 정치인 등록

Phase 2: 수집 단계

Phase 3: 검증 단계

Phase 2-2: 검증 후 조정

Phase 3: 평가 단계

Phase 3-1: 평가 검증 단계

Phase 4: 점수 계산 단계

Phase 5: 보고서 생성 단계

핵심 프레임워크: CBA (Stoker et al. 2024)

참고 연구 및 평가 시스템

CBA 3축과 10개 카테고리 매핑

카테고리별 평가 항목 상세

카테고리 1: Expertise (전문성)

카테고리 2: Leadership (리더십)

카테고리 3: Vision (비전)

카테고리 4: Integrity (청렴성)

카테고리 5: Ethics (윤리성)

카테고리 6: Accountability (책임감)

카테고리 7: Transparency (투명성)

카테고리 8: Communication (소통능력)

카테고리 9: Responsiveness (대응성)

카테고리 10: Public Interest (공익성)

1. 베이즈 정리 (Bayes' Theorem)

2. V40이 베이지안에서 가져온 것

첫째: "사전 믿음(Prior)"이라는 개념

둘째: "사전 믿음 + 데이터 = 갱신된 믿음"이라는 결합 구조

셋째: "증거의 부재 ≠ 부재의 증거"라는 인식론

3. V40이 베이지안에서 가져오지 않은 것: 동적 갱신