top of page

Recent Post

다른 글을 더 읽어보시겠어요?

세상을 바꾸는 데이터,
틱택에서 시작하세요!

일반데이터부터 특수데이터까지,
수집 및 가공부터 맞춤형 AI 솔루션까지,
틱택과 함께라면 이제 모든 것이 쉬워집니다.

금융·교육 뉴스 검색 고도화를 위한 AI 태그 추천 데이터 구축

  • 작성자 사진: Korea Tictag
    Korea Tictag
  • 10월 29일
  • 2분 분량

최종 수정일: 9시간 전

ai 기반 피트니스 제품 추천용 사용자 및 제품 데이터 구축


고객사 소개

AI 기반 지식관리 스타트업인 고객사는 텍스트의 가치를 태그로 연결하며, 정보의 의미를 이해하고 재구성하는 기술을 개발합니다. 비정형 뉴스·문서 데이터를 기반으로 핵심 키워드, 주제, 인물 등을 자동 추출하고 표준화된 태그로 변환하는 AI 태깅 알고리즘을 통해 정보 검색과 추천의 정확도를 높이고 있습니다. 특히, 벡터 데이터베이스와 RAG(Retrieval Augmented Generation) 기술을 결합해 필요한 정보를 문맥에 맞게 재활용함으로써, 사용자가 원하는 지식을 더 빠르고 정교하게 찾아주는 초개인화 지식 검색 솔루션을 구축하고 있습니다. 




프로젝트 과제 및 배경

최근 LLM(Large Language Model)의 확산으로 디지털 데이터가 폭발적으로 증가하면서, 뉴스·금융·교육 분야에서는 비정형 텍스트 데이터의 효율적 관리와 검색 최적화가 핵심 과제로 떠오르고 있습니다. 하지만 대부분의 시스템이 단순 키워드 기반으로 동작해 문맥을 반영하지 못하고, 금융 및 교육 분야의 방대한 뉴스 콘텐츠는 의미 있는 지식으로 구조화되지 못한 채 활용 한계를 보였습니다.

이에 고객사는 싱가포르 현지 금융·교육 뉴스 데이터를 기반으로 AI가 문장을 이해하고 핵심 주제, 키워드, 감성을 자동 태깅할 수 있도록하는 문장-태그 데이터셋 구축 프로젝트를 추진했습니다. 또한, 글로벌 금융 및 교육 허브인 싱가포르를 중심으로 AI 기반 초개인화 태그 추천 기술을 고도화하고자 했으며, 이를 위해 싱가포르 현지 데이터 구축 경험과 다국어 라벨링 전문성을 갖춘 틱택을 최적의 파트너로 선정했습니다.



틱택코리아 작업 내용

본 프로젝트에서 틱택은 데이터 수집, 가공 및 라벨링, 정제 및 품질관리를 거쳐 작업을 수행했습니다.


영문 뉴스 데이터 예시 이미지
출처: Unsplash (영문 뉴스 데이터 예시)



1. 데이터 수집

  • 수집 분야: 금융 및 교육 분야 영문 뉴스 데이터 

  • 언어 및 국가: 영어(싱가포르 중심, 비영어권 기사 포함) 

  • 수집 단위 및 수량: 300자 이상 문단 3,000건


2. 데이터 가공 및 라벨링

  • 라벨링 작업은 뉴스 기사 내 문장을 분석해, 각 문장에 해당하는 핵심 개체명이나 주제를 태그(예: Singapore, Central Bank)로 매칭하는 방식으로 수행되었습니다.

  • 먼저, 각 문단 내에서 핵심 키워드 추출 및 4종 태그 생성 작업을 수행했습니다. 

태그 유형

설명

핵심

• 문단의 주요 주제를 포괄적으로 나타내는 대표 태그 생성

• 문맥을 파악하여 가장 중요한 논점 선별 및 생성

키워드

기사 내 명확히 언급된 실체(인물, 기관 등 고유명사 및 명사구) 추출

위치

문단 내 지명, 국가명, 도시명 등 지리적 요소 식별

감성

문맥에 따른 긍정·부정·중립 감성 및 성장·하락 등 상황형 감성 부여

  • 그 외에도 다음과 같은 과정들을 거쳐 가공 작업을 수행했습니다. 

    • 개인정보, 비속어, 혐오 표현이 포함된 문장은 자동 필터링 및 제외 

    • 동일 개체명(예: 삼성, Samsung)은 대표 용어로 표준화 처리 

    • 특수 기호 및 비공식 줄임말을 제거하여 데이터 일관성을 확보 


3. 데이터 정제 및 품질 관리

  • 태그 간 중복 및 오류 검수, 문장 길이 검증 

  • AI 학습에 적합한 정형화된 문장-태그 메타데이터 구조로 변환 

  • 금융·교육 도메인 전문가의 2차 검수를 통해 최종 품질 검증 완료


솔루션 및 작업 결과 금융·교육 뉴스 검색 고도화를 위한 AI 태그 추천 데이터 구축


이번 '금융·교육 뉴스 검색 고도화를 위한 AI 태그 추천 데이터 구축' 프로젝트를 통해 틱택은 고객사가 추진하는 초개인화 태그 추천 AI 모델 학습용 핵심 데이터 파이프라인을 성공적으로 구축했습니다. 이를 통해 고객사는 아래와 같이 학습 데이터 확보, 메타데이터 기반 지식 구조화, 검색 정확도 및 효율 향상 등 구체적인 성과를 달성했습니다.


1. 학습 데이터 확보

  • 싱가포르 금융·교육 뉴스 데이터를 기반으로 문장 단위 태깅이 완료된 고품질 문장-태그 매핑 데이터셋 구축

2. 메타데이터 기반 지식 구조화

  • 비정형 기사 데이터를 AI가 이해 가능한 정형화된 지식 형태로 전환 

  • 기사 내 핵심 주제·키워드·기관·인물 간 관계 구조화

3. AI 모델 학습 및 검색 고도화 기반 마련

  • 고객사의 초개인화 태그 추천 기술 학습용 데이터로 활용

  • 금융·교육 분야 뉴스 검색 정확도 확보 



데이터로 혁신을 연결하는 파트너, 틱택코리아


틱택코리아는 단순한 데이터 라벨링을 넘어, AI가 문맥을 이해하고 지식을 구조화할 수 있도록 돕는 고품질 학습 데이터를 구축합니다. 이번 프로젝트를 통해 고객사의 초개인화 태그 추천 기술 고도화를 위한 핵심 데이터 파이프라인을 성공적으로 완성했습니다.



👉 AI 모델 학습용 데이터 구축이 필요하신가요? 아래 버튼을 눌러 편하게 문의해 보세요!


틱택코리아 문의하기 CTA 버튼



댓글


bottom of page