UrbanLaw — 검토 방식 상세 (How it works)

01 / DATA

법령 DB는 61,732건 / 453개 법령으로 구축됐습니다.

"AI가 제대로 알고 있나?"라는 질문의 시작은 결국 데이터입니다. 우리는 일반적인 LLM의 사전학습 지식을 신뢰하지 않고, 실제 법령 원문을 자체 DB에 적재한 뒤 그 안에서만 인용하도록 설계했습니다.

453개

수록 법령

61,732

조문 청크

25,154

판례 청크

2,786

판례 AI 요약

1법령 원문은 어디서 가져오는가

법제처의 공식 OpenAPI(law.go.kr, OC=lawsearch6165)를 통해 원문을 직접 크롤링합니다. 가공·요약된 2차 자료가 아닌 법제처 정본입니다.

법령 본문 / 시행령 / 시행규칙법제처 OpenAPI · 조문 단위 수집 → data/rechunk_crawl_cache/ 저장

지자체 조례 (서울 + 경기 30개 시군 319개 + 하남시 14종 외)법제처 자치법규 API → 시군별 건축·도시계획·경관·주차 조례 자동 매칭

판례·행정심판례·법령해석례법제처 prec/detc/expc API → urbanlaw_precedents 컬렉션 (2024.3 ~ 현재)

지구단위계획·도시계획결정 (서울)UPIS(서울도시공간포털) ArcGIS REST · UPIS gpkg/SHP

2임베딩은 어떻게 만들어지는가

일반 RAG처럼 "원문을 그냥 임베딩"하지 않습니다. 검색 정확도를 위해 임베딩 텍스트를 3중으로 구성합니다.

┌─ 임베딩 입력 텍스트 ─────────────────────────┐
│ [법령명 | 장 | 절 | 조문제목]          ← prefix
│ LLM이 생성한 context_summary            ← 상위법 위임 관계만
│ 조문 원문 그대로                          ← original_text
└──────────────────────────────────────────────┘
모델: OpenAI text-embedding-3-large (3,072차원)
최대 길이: 6,000자 (EMBED_MAX_CHARS)

3맥락 요약(summary)은 환각 없이 만들었나

각 조문에 대해 Gemini Flash로 1~2문장 요약을 생성하지만, 환각을 막기 위해 다음 4개의 절대 규칙을 프롬프트에 박아넣었습니다.

SUMMARY 절대 규칙

원문에서 알 수 있는 내용은 쓰지 마라.
원문에 명시적으로 언급된 위임·준용 관계만 써라. 추론하지 마라.
원문에 상위법 참조가 없으면 "상위법 참조 없음"이라고 써라.
'~를 규정한다' 같은 표현은 절대 쓰지 마라.

검증 결과 (2026-03-17): 무작위 10건 교차검증 → 할루시네이션 0건 확인.

4Parent–Child 청크 구조

Parent: 조문 전체 (예: 「국토계획법 시행령」 제84조 전문)
Child: 항(①②③) 단위로 쪼갠 청크. 각 child는 parent_id·parent_text를 메타데이터로 들고 있음
검색 시 child가 히트하면 → 부모 조문 맥락까지 같이 AI에게 전달
"조문의 ②항만 보고 답하다 ①항을 놓치는" 흔한 RAG 실수 방지용

02 / LAND DATA

토지정보는 정부 공식 API에서 실시간으로 가져옵니다.

검토 대상지의 토지정보·규제·건축물대장은 우리가 미리 저장해둔 데이터가 아니라, 검토할 때마다 정부 OpenAPI를 호출해 그 시점의 최신 정보를 받아옵니다.

주소 → PNU 변환 VWorld 주소검색 (api.vworld.kr/req/search) — 도로명·지번 모두 지원

공시지가 / 토지특성 VWorld getLandCharacteristics · getLandUseAttr — 연도별 공시지가 시계열 포함

토지이용규제 (용도지역·지구·구역) VWorld 토지이용규제 API → 용도지역, 지구단위계획구역, 개발제한구역, 학교환경위생정화구역 등 직접 추출

건축물대장 국가건축물대장 OpenAPI (BLD_API_KEY) — 표제부·총괄표제부·층별 정보 (PNU 11번째 자리로 대지/산 자동 분기)

지구단위계획 상세 (서울) UPIS ArcGIS REST 98.33.2.225:6080/.../UPIS/20200526_WFS · 도면번호·결정고시·특별계획구역까지 추출

지구단위계획 (경기 외) UPIS gpkg + VWorld WFS lt_c_upisuq161 fallback (gpkg 미수록 지역용)

데이터 신뢰도 메모

VWorld·법제처·국가건축물대장은 모두 공공데이터포털 정식 키를 발급받아 사용합니다.
장애·점검으로 응답이 비면 다른 소스(SHP/gpkg)로 fallback합니다.
실시간 호출 결과는 data/usage.db에 사용 로그로 기록됩니다(개인정보 제외).

03 / SEARCH ENGINE

3-Layer 하이브리드 검색으로 누락을 막습니다.

단일 벡터검색은 토지/규제처럼 키워드가 정확히 떨어지는 영역에서 자주 핵심 조문을 놓칩니다. 그래서 BM25 + 임베딩 + AI 플래너 + 룰 기반 매칭을 한꺼번에 돌립니다.

LAYER 1토지이용규제 → 키워드 추출 → BM25 + 룰 기반 직접 매칭 (zone_bpr)

LAYER 2AI 플래너(Gemini Flash)가 3트랙 키워드 생성 → 벡터검색 + 조례 자동매칭

LAYER 3위임조항 체인 추적: "령 제XX조"·"조례로 정한다" 패턴 → 자동 후속 검색

RERANKCross-encoder ms-marco-MiniLM-L-6-v2 재정렬 + Track A 필수 보존

1Layer 1 — "이 토지에 뭐가 걸려있나?"

용도지역 → 직접 매핑: 제3종일반주거지역 → 「국토계획법 시행령 제84조」 + 해당 지자체 건축조례 자동 주입
규제 키워드 직접 검색: 개발제한구역 → 특별조치법, 자연공원 → 자연공원법
별표 매칭: 별표 형태 조문(허용/금지 시설 목록 등)을 별도 인덱스로 검색
소스 태그: track_a_bm25, zone_bpr_priority, regulation_direct, regulation_direct_byulpyo

2Layer 2 — "이 질문에 뭘 봐야 하나?"

AI 플래너가 토지정보 + 질문을 보고 3개 트랙으로 검색 키워드를 생성합니다.

Track A — 토지 기본 규제 (건폐율·용적률·높이·용도)
Track B — 질문 특화 쟁점 (예: 수목장, 리모델링, 태양광, 옥상정원)
Track C — 절차/인허가 요건

그리고 다음을 동시에 강제 포함합니다.

지자체 조례 자동 매칭: 주소에서 시/군 추출 → "{시군} 건축 조례 / 도시계획 조례 / 경관 조례" 강제 주입
용도지역·규제 동적 매칭: 토지이용규제 텍스트의 3글자+ 키워드를 _bm25_metas 전체와 대조 → 겹치는 법령 강제 검색
ALWAYS_SEARCH: 모든 검토에 일조권 사선제한·조경 면적·주차장 설치기준·이격거리 강제 포함 + 서울이면 서울시 조례 4종

3Layer 3 — 위임조항 체인 추적

1차 검색 결과 안에서 다음 패턴을 탐지하면 자동으로 후속 검색을 돌립니다.

령 제XX조 → 시행령 조문 추가
법 제XX조 → 법률 조문 추가
조례로 정한다 / 정하는 → 해당 지자체 조례 검색
별표 X → 별표 조문 추가

4Reranking + 최종 출력

Track A 필수 보존: 토지 기본 규제 관련 결과는 reranker에서도 절대 잘리지 않도록 우선 보존 (최대 25건)
Cross-encoder 재정렬: 나머지 후보를 질문과 쌍으로 비교해 의미 유사도 재점수 → 총 40건만 LLM에 전달 (품질 우선)
출력 포맷: [위계:3 📘 조례] [조문번호] 제목 (장/절) + [맥락] 상위법 위임관계 1~2줄 + 원문

04 / EXPERT PANEL

한 건당 최대 7명의 AI 전문가가 합의에 도달합니다.

단일 LLM 응답을 그대로 신뢰하지 않습니다. 역할이 다른 전문가 페르소나가 각자의 관점에서 따져보고, 반박 전문가가 반대 입장을 일부러 만들어 부딪치게 합니다.

법령적용 범위·위계

도시계획지구단위·용도지역

건축대지·일조·이격

조경면적·식재 기준

판례유사 사건·해석례

반박(devil)일부러 반대해석

판정(judge)종합 의견 합의

1standard 모드 (기본 검토)

법령 검색 (3-Layer)
판례·행정심판례·해석례 검색
1차 답변 생성 (Gemini + Google Search tool)
Pass 2 보충 검색 — 1차 답변에서 부족한 법령 식별 → 추가 검색 → 보강 답변
Recursive Deep-Dive 1회 — 1차 답변에서 후속 쟁점 자동 추출 → 추가 라운드
QA 검증 (Self-Critique)
교차검증 — 인용한 법령 조문을 다시 검색해 누락 확인
판례 인용 검증 — 판례번호를 ChromaDB에서 실제 존재 여부 확인

2deep 모드 (심층 검토)

standard 위에 다음을 추가합니다.

3명 병렬 전문가 분석 (법령·도시계획·판례)
반박(devil) 전문가가 누락된 쟁점·반대 해석을 일부러 들춤
Recursive Deep-Dive를 2회까지 진행
QA + 교차검증 + 판례검증 모두 수행

소스: core/agents.py · multi_agent_consult() · _recursive_deep_dive() · verify_precedent_citations()

05 / VERIFY

최종 답변은 3중 검증을 통과해야 출력됩니다.

"법령 인용한 척"하는 LLM의 흔한 패턴을 막기 위해, 모델이 만든 답변에서 인용된 조문/판례를 거꾸로 우리 DB에 다시 조회합니다.

1QA Self-Critique

같은 모델에게 "이 답변에 누락이나 오류가 있다면?"이라고 다시 묻고, 빠진 쟁점이 있으면 보강 답변을 생성합니다.

2법령 교차검증

답변에서 인용한 법령·조문을 추출 → DB에서 다시 검색 → 누락된 조문이 있으면 자동 보강합니다.

3판례번호 실재 검증

verify_precedent_citations()가 답변 텍스트에서 사건번호 패턴(예: 2018두12345)을 추출 → ChromaDB urbanlaw_precedents 컬렉션에서 실제 존재 여부 조회.

DB에 있음 → ✅ DB 확인완료 마크 자동 삽입
DB에 없음 → ⚠️ 검증 필요 마크 자동 삽입
판례 환각 100%까지는 못 막아도, 답변 안에서 검증 결과를 그대로 노출하기로 했습니다. 영빈님이 직접 보고 판단하시라는 뜻입니다.

왜 이렇게까지 합니까

법규 검토 영역에서 LLM이 가장 자주 틀리는 패턴이 조문 번호 환각과 판례 인용 환각입니다. 그래서 우리는 두 가지를 정한 뒤 출시했습니다 — (1) DB에 없는 법령은 인용하지 않는다, (2) 검증 결과는 답변 안에 그대로 노출한다. 깔끔한 답변보다 거짓을 줄인 답변이 우선이라고 봅니다.

10 / SINGLE PARCEL

단일 획지 검토는 "주소 한 줄"로 시작합니다.

가장 많이 쓰이는 검토 유형입니다. 주소 하나만으로 토지정보부터 법령·판례까지 한 번에 검토합니다.

처리 흐름

주소 입력 → POST /api/search-address (VWorld 주소검색)
후보 주소 선택 → POST /api/land-info (PNU 확정 + 데이터 수집)
- VWorld getLandCharacteristics / getLandUseAttr → 공시지가·토지특성
- VWorld 토지이용규제 → 용도지역·지구·구역 추출
- 국가건축물대장 API → 표제부·총괄표제부
- 서울이면 UPIS ArcGIS → 지구단위계획·도면번호
- 비서울이면 SHP/VWorld WFS fallback
지도·기본정보·지구단위계획·건축물 정보 렌더
POST /api/analyze SSE 스트림 → 위 03·04·05 섹션의 검색·전문가 패널·검증 절차 그대로 수행
최종 보고서 + 후속 채팅(/api/chat/stream) + 재분석(/api/reanalyze) + 내보내기(/api/export/docx) 가능

소스: routes/land.py, routes/analyze.py

11 / BLOCK

블록 단위 분석은 GIS 집계 + 단일 분석을 합칩니다.

한 필지가 아니라 여러 필지를 한꺼번에 봐야 하는 사업형 검토용입니다.

처리 흐름

주소 검색 → 블록 후보 로딩 (POST /api/block-parcels)
지도에 parcel GeoJSON 표시 → 사용자가 다중 선택
필요 시 POST /api/multi-parcel-zoning · POST /api/block-zoning 호출
- 서울: UPIS ArcGIS proxy로 지구단위계획·용적률·건폐율 overlay 계산
- 비서울: VWorld WFS로 PNU·필지경계 조회
선택 필지 속성을 합쳐 블록용 landInfo 재구성 (대지면적 합산, 평균 용적률 등)
이후 단일 분석과 동일한 POST /api/analyze 또는 /api/block-analyze 사용

소스: routes/block.py (707 LOC)

12 / GENERAL Q&A

일반 법령 질의는 우리 DB 안에서만 답합니다.

"역세권 청년주택의 인센티브 한도?"처럼 토지 맥락이 없는 제도 자체에 대한 질문 모드입니다.

특이점

토지정보 없음 — land_info=None으로 분석 진입
대신 일반질문 전용 AI 플래너 (_parse_general_planner)가 질문을 법령 검색용 쿼리로 분해
기본 BM25 직접 검색 레이어(Layer 1.9)도 추가로 돌려, 정확한 법령명·조문번호로 질문하면 즉시 매칭
Pass 2 + Deep-Dive 1회 (standard) / 2회 (deep) + QA + 교차검증 + 판례검증 모두 동일하게 수행

버그 히스토리 (정직한 고지)

2026-04-17 이전까지 후속 채팅(/api/chat/stream)에서 법령 검색 결과가 항상 0건으로 반환되는 버그가 있었습니다. search_laws() 반환 타입을 dict로 잘못 가정한 코드가 try/except로 숨겨져 있던 것이 원인이었고, 발견 즉시 수정·배포했습니다. 이후로 후속 질문도 정상 인용됩니다.

소스: routes/analyze.py · core/search.py

13 / GUIDELINE PDF

지침서 PDF는 텍스트 추출 + 세션화로 분석합니다.

설계공모 지침서, 사업 설명서 PDF를 올리면 핵심 조건·법적 한도·인센티브·리스크를 자동으로 정리합니다.

처리 흐름

PDF 업로드 → POST /api/competition/analyze
PyMuPDF로 페이지별 텍스트 추출
Gemini로 핵심 정보 JSON 추출 (대상지·면적·용도·인센티브 등)
주소 추출되면 → get_land_info로 대상지 토지정보까지 보강
search_laws_for_guideline()로 관련 법령 대량 검색
search_legal_limits()로 지침서 수치 vs 법적 한도 비교 (예: 지침서 "용적률 600%" vs 법령 한도)
search_incentives()로 적용 가능한 인센티브 후보 수집
generate_risk_flags()로 누락·재확인 필요 항목 생성
세션 ID 발급 → 이후 POST /api/competition/chat으로 같은 지침서에 대해 후속 질의

소스: routes/competition.py (1,205 LOC)

14 / SCALE & INCENTIVES

규모 검토는 법적 한도와 시뮬레이션을 정량적으로 부딪쳐봅니다.

지침서/대지 조건을 바탕으로 건폐율·용적률·높이·인센티브·최대 규모를 계산합니다. UI는 별도 탭이지만, 백엔드는 지침서 분석(competition)의 구조화 데이터를 재활용합니다.

핵심 endpoint

POST /api/scale-review — 지침서/토지정보 + 사용자 입력 수치 → 법적 한도 비교 → 인센티브 적용 시 가능 규모 시뮬레이션
인센티브 항목별 가능/불가능 사유를 함께 반환 (단순 수치만이 아니라 근거 조문까지)

소스: routes/competition.py · scale 관련 로직

15 / DEV REVIEW

대규모 개발 검토는 지도 라쏘 + 공간 분석으로 시작합니다.

필지 단위가 아닌 구역 단위 가능성 검토용. 정비사업·재개발·도시재생을 염두에 둔 모드입니다.

처리 흐름

지도에서 라쏘 폴리곤 선택 → POST /api/devreview/analyze
입력 폴리곤 면적 계산
VWorld 규제 레이어 병렬 조회 — 용도지역·지구단위계획·개발제한구역 등
용도지역별 면적 비중 + 가중평균 개략 FAR(용적률) 계산
SHP/UPIS 기반 정비사업·지구단위계획 현황 수집
요약된 land context를 다시 routes.analyze.api_analyze()에 넘겨 AI 종합 분석 수행 (검색·전문가 패널·검증 모두 동일)

소스: routes/devreview.py (275 LOC)

20 / STACK

기술 스택과 의존성

"내부적으로 뭐 쓰는지" 묻는 분들을 위해 그대로 적습니다. 숨길 이유가 없습니다.

백엔드FastAPI + uvicorn (단일 프로세스, 포트 8511)

프론트SPA 1개 (index.html + static/app.js + static/style.css), 6개 탭 동일 페이지

벡터 DBChromaDB 1.5.5 (PersistentClient, 단일 프로세스 전용)

임베딩 모델OpenAI text-embedding-3-large (3,072차원)

LLMGoogle Gemini (Vertex AI) — Flash / Pro 모델 혼용, Google Search tool 활성화

BM25BM25Okapi (한국어 토크나이징, 약 2~3분 빌드)

Rerankercross-encoder/ms-marco-MiniLM-L-6-v2 (numpy 1.26.4 고정)

외부 APIVWorld · 법제처 · 국가건축물대장 · UPIS ArcGIS

21 / LIMITATIONS

정직하게 적은 한계입니다.

잘 되는 것만 적으면 신뢰가 안 쌓인다고 봐서, 우리가 알고 있는 한계도 같이 적습니다.

판례 환각 100% 차단은 불가. 사건번호가 명시된 판례는 DB 검증으로 ✅/⚠️ 표시까지 가능하지만, 문장형으로 인용된 판례는 자동 검증이 어렵습니다.
지자체 조례 커버리지: 서울 + 경기 30개 시군이 우선 적재돼 있고, 그 외 지역은 일반 법령 + 일부 조례 위주로 답변합니다. 빠진 시군 조례 발견 시 후속 적재합니다.
실시간 데이터 의존: VWorld·건축물대장 OpenAPI 장애 시 fallback이 동작하지만 일부 필드가 비는 경우가 있습니다.
UI는 SPA 단일 파일: static/app.js가 매우 크고, 탭 간 결합도가 높아 회귀 버그 위험이 상존합니다. 리팩토링 진행 중.
판례 행정심판례·해석례는 적재 코드는 완료됐지만 실제 데이터는 일부만 들어있어 점진 보강 중입니다.
검토 결과는 참고용이며, 실제 인허가·계약·법적 판단은 반드시 전문가 검토를 거치세요. UrbanLaw는 빠른 1차 스크리닝 도구입니다.

모든 단계를 투명하게 공개합니다.
의심해도 좋은 답을 만들기 위해서요.

법령 DB는 61,732건 / 453개 법령으로 구축됐습니다.

1법령 원문은 어디서 가져오는가

2임베딩은 어떻게 만들어지는가

3맥락 요약(summary)은 환각 없이 만들었나

4Parent–Child 청크 구조

토지정보는 정부 공식 API에서 실시간으로 가져옵니다.

데이터 신뢰도 메모

3-Layer 하이브리드 검색으로 누락을 막습니다.

1Layer 1 — "이 토지에 뭐가 걸려있나?"

2Layer 2 — "이 질문에 뭘 봐야 하나?"

3Layer 3 — 위임조항 체인 추적

4Reranking + 최종 출력

한 건당 최대 7명의 AI 전문가가 합의에 도달합니다.

1standard 모드 (기본 검토)

2deep 모드 (심층 검토)

최종 답변은 3중 검증을 통과해야 출력됩니다.

1QA Self-Critique

2법령 교차검증

3판례번호 실재 검증

단일 획지 검토는 "주소 한 줄"로 시작합니다.

처리 흐름

블록 단위 분석은 GIS 집계 + 단일 분석을 합칩니다.

처리 흐름

일반 법령 질의는 우리 DB 안에서만 답합니다.

특이점

버그 히스토리 (정직한 고지)

지침서 PDF는 텍스트 추출 + 세션화로 분석합니다.

처리 흐름

규모 검토는 법적 한도와 시뮬레이션을 정량적으로 부딪쳐봅니다.

핵심 endpoint

대규모 개발 검토는 지도 라쏘 + 공간 분석으로 시작합니다.

처리 흐름

기술 스택과 의존성

정직하게 적은 한계입니다.

읽으셨다면, 한 번 검토해보세요.