♠️

용어사전 (데이터, AI, 웹기록)

토론에 나온 용어 중 설명이 필요한 걸 정리했습니다. ▸는 이해하기 쉽게 설명한 것입니다.

# - 같은 기호로 제목·목록 등 문서 구조를 표시하는 가벼운 텍스트 형식. 사람도 읽기 쉽고 기계도 처리하기 쉬움. 서호성 발표의 관보 12.8만 건 변환 결과물 형식.

▸ 부호 몇 개로 구조를 표시한 '메모장 글'. 가볍고, 사람도 기계도 잘 읽음.

데이터를 '이름:값' 쌍으로 구조화해 저장하는 기계가독 형식. JSON-LD는 거기에 '이 값이 무슨 의미인지'(맥락)를 링크드데이터 방식으로 덧붙인 것.

▸ JSON은 칸이 잘 나뉜 표, JSON-LD는 각 칸에 '이건 날짜, 이건 사람 이름'이라고 뜻표를 붙인 표.

파일 내용을 고정 길이의 값으로 변환한 '디지털 지문'. 내용이 1비트만 바뀌어도 값이 완전히 달라져, 위·변조 여부를 확인할 수 있음. SHA-256은 널리 쓰이는 해시 방식의 하나.

▸ 파일마다 다른 지문을 떠두는 것. 지문이 같으면 안 바뀐 것.

'누가, 무엇을, 언제, 어떻게 생성·수정·사용했는가'를 표현하기 위한 W3C 표준(출처·내력 모델).

▸ 문서의 '족보'를 기계가 읽을 수 있게 적어두는 표준.

지식을 '주어-서술어-목적어' 삼중항(triple)으로 표현하는 RDF를, 그 삼중항 하나하나에 '언제 생성/폐기됐는가' 같은 메타정보를 박아 넣을 수 있게 확장한 것. 버전별 변경 이력 추적에 활용.

▸ 족보의 각 줄에 '이 사실은 언제부터 언제까지 유효' 같은 꼬리표를 또 붙이는 것.

AI가 '왜 이런 결과를 냈는지'를 사람이 이해할 수 있게 설명해주는 기술·설계.

▸ AI에게 "왜 그렇게 읽었어?"라고 물으면 답할 수 있게 하는 것.

관계형 데이터베이스(DB)를 장기보존용으로 떠내는 국가기록원 보존 포맷.

▸ DB를 보존용으로 떠낸 것. 임태원 발표 비판: 뷰 테이블 일부만 보이고 코드값·주기 해석이 안 돼 '설명서 없이 받은 숫자표' 같다.

기록을 그 맥락·관계(누가 만들고 어떤 활동·기능에 속하는지)와 함께 표현하는 국제 기록기술 표준(온톨로지).

▸ 기록을 낱장이 아니라 '관계망' 속에서 기술하는 국제 표준.

LLM이 답할 때 외부 데이터를 먼저 '검색'해 와서 그걸 근거로 '생성'하게 하는 방식. 환각을 줄이고 출처 기반 답변을 가능하게 함.

▸ AI가 지어내지 않게, 자료를 펼쳐놓고 보고 답하게 하는 것.

웹페이지에 '이 페이지는 데이터세트입니다'라고 검색엔진에 알려주는 schema.org 표준 표시.

▸ 데이터에 붙이는 '검색엔진용 꼬리표'. 붙여야 구글 데이터세트 검색에 잡힘.

schema:Dataset 마크업이 붙은 데이터세트를 웹에서 모아 찾아주는 구글의 전용 검색 서비스.

▸ 데이터세트만 골라 찾아주는 구글 검색.

시간이 지나며 웹페이지·링크가 사라지거나 깨지는 현상. 약 40개 대통령 웹사이트 서비스 중단이 그 예.

▸ 시간이 지나면 웹페이지·링크가 썩듯 사라지는 현상.