마케터의 데이터 로그

7. 데이터 분석가 프로젝트 8주차 수행일지

뺩빱 — Thu, 2 Oct 2025 12:23:37 +0900

기존에 했던 관광 데이터와 새롭게 삽입된 외부의 마케팅 데이터셋이

프로젝트에 직접적으로 연결되지 않아 두개의 데이터를 매칭하는 방법을 모색했다.

우선 같은 분석 프로세스를 적용해보는 방법으로 1차 실험해보았다.

[멀티캠퍼스 KDT 데이터 분석가 최종 프로젝트 8주차 수행일지]

1. 공통 분석 구조 찾기

관광 데이터에서는 누가 방문했는지 어떤 경험을 했지는지 결과를 알 수 있었고

외부 마케팅 데이터는 누가 클릭했는지 어떤 행동을 전환했는지 알 수 있었다.

둘다 세그먼트에서 연령, 성별, 국가, 키워드와 성과지표인 방문, 전환, ROI 구조를 가지고 있다.

2. 매칭하기

지금까지 한 프로젝트(관광 데이터) 외부 마케팅 데이터셋 매칭

방문객 수, 국가별/연령별 특성	광고 노출수(Impressions), 세그먼트별 클릭	"규모 지표" (얼마나 왔는가 vs 얼마나 봤는가)
긍정/부정 감성 데이터	전환율(CVR), 광고 반응률(CTR)	"경험/반응 지표" (얼마나 만족했는가 vs 얼마나 전환했는가)
세그먼트별 패턴	광고 채널별 성과 (구글, 페북, 네이버 등)	"채널/집단별 비교"
정책/전략적 인사이트	광고 캠페인 효율(ROAS, CPA)	"전략적 의사결정 지표"

3. 실행 플로우(아직 시뮬레이션 단계)

데이터셋 구조 파악 (광고 데이터의 기본 지표: Impressions, Clicks, Conversions, Cost, Revenue)
관광 데이터와 공통 프레임워크 만들기 : 세그먼트 단위 비교: 국가, 연령, 성별, 키워드 등...
성과 지표 산출 (CTR, CVR, ROAS, CPA 계산 → 관광 프로젝트에서 사용한 ‘긍정률·재방문률’과 같은 역할)
세그먼트 분석 & 시각화 : 어떤 집단/채널이 효율이 좋은가?
인사이트 연결
- 관광 데이터: 어떤 집단이 방문·만족했는가
- 광고 데이터: 어떤 집단/채널이 효율적으로 반응했는가

4. 데이터셋 현황

관광 데이터 (내부 구축):
- 국가별·성별·연령별 방문객 수
- 긍정/부정 감성 비율
- 방문 목적 등
외부 마케팅 데이터:
- 국가, 성별, 연령, 채널, 캠페인별 노출·클릭·전환·비용 (Advertising.csv, marketing_AB.csv 등)
- 일부 데이터는 Synthetic Data 기반 (실제와 유사한 분포 구조)

5. 수행 과정

(1) 공통 스키마 정의

두 데이터셋은 구조가 달라 직접 합치기 어렵다.
그래서 공통 키(country, gender, age_group)를 설정하고, 광고 데이터의 나이를 관광 데이터의 연령 구간(예: 20-29세)에 맞게 변환하였다.

(2) 매칭 로직

광고 데이터 성과지표: CTR(클릭률), CVR(전환율), CPA(전환당 비용), ROAS(광고수익률) 계산
관광 데이터 지표: 방문객 수, 긍·부정 감성 비율
두 데이터를 공통 키로 Join하여, 세그먼트별 “방문 규모 × 광고 성과”를 한눈에 비교할 수 있게 정리

(3) 점수화(우선순위 산출)

방문객 수(시장 규모)
CVR(전환 성향)
ROAS/CPA(비용 효율)
이 3가지를 가중 평균하여 우선 공략 점수(score)를 계산

6. 어려움 & 해결

문제: 관광 데이터와 광고 데이터의 연령대·국가명이 일치하지 않아 매칭에 어려움 발생
해결:
- 광고 나이를 구간화(cut)하여 관광 데이터 구간과 맞춤
- 국가명 매핑 테이블 생성 (예: “United States of America” → “USA”)

7. 다음 주 계획

SEM(검색광고) 시뮬레이션 실험 진행
Synthetic Data 기반으로 광고비 증감 시 전환율·ROI 변화를 추정
최종적으로 “데이터 기반 관광 마케팅 전략 보고서” 완성

6. 데이터 분석가 프로젝트 7주차 수행일지

뺩빱 — Fri, 26 Sep 2025 10:08:29 +0900

이번 주에는 최종 프로젝트를 심화하기 위해,

분석 중간 결과를 정리하고 슬라이드를 만들고 중간 발표 준비를 했다.

[멀티캠퍼스 KDT 데이터 분석가 최종 프로젝트 7주차 수행일지]

슬라이드 제작

데이터를 기반으로 한 분석 과정을 구조화하고,

중간까지의 성과를 발표용 자료로 다듬었다.

문제 정의 → 데이터 소개 → 분석 프로세스 → 중간 인사이트 → 확장 방향까지

하나의 흐름으로 연결했다.

확장 계획 수립

그동안 외부에 있는 A/B 테스트 시뮬레이션을 벤치마킹해서

현재 프로젝트와 연결된 점없이 실무 위주로 진행했다.

앞으로는 이 외부 시뮬레이션와 본 프로젝트를 연결된 점을 찾고

A/B 테스트 시뮬레이션을 통해 실제 마케팅 메시지 효과를 검증할 예정이다.

예를 들어, 20대에게는 K-팝 중심의 SNS 캠페인을,

30~40대에게는 가족 친화형 패키지 광고를,

50대 이상에게는 안정성과 편안함을 강조한 메시지를 실험할 수 있다.

또 장기적으로는 MMM(미디어 믹스 모델링)을 도입해 채널별 ROI를 분석하고,

SEO & 검색광고 시뮬레이션으로 전략을 더 구체화할 계획이다.

다음 주에는 본격적으로 캠페인 시뮬레이션과 ROI 분석을 진행해,

더 구체적이고 실행 가능한 전략을 제시할 예정이다.

5. 데이터 분석가 프로젝트 6주차 수행일지

뺩빱 — Fri, 19 Sep 2025 12:37:32 +0900

이번 주에는 광고 캠페인 데이터 분석 프로세스 시뮬레이션을 했다.

실제 캠페인 데이터가 없어서 Kaggle 공개 데이터셋을 활용해

광고 캠페인 성과 분석 프로세스를 시뮬레이션 했다.

실제 캠페인 데이터가 없더라도, 동일한 분석 과정을 연습해두면

실무에서는 데이터만 교체해 바로 적용할 수 있다.

[멀티캠퍼스 KDT 데이터 분석가 최종 프로젝트 6주차 수행일지]

1. 데이터 불러오기 & 기본 확인

import pandas as pd

df = pd.read_csv("/content/KAG_conversion_data.csv")
df.head()

2. 전환 퍼널 지표 계산 (CTR, CVR, CAC)

df["CTR"] = df["Clicks"] / df["Impressions"]
df["CVR"] = df["Conversions"] / df["Clicks"]
df["CAC"] = df["Total_Spend"] / df["Conversions"]

df[["Ad_ID","CTR","CVR","CAC"]].head()

CTR (Click-Through Rate): 광고 노출 대비 클릭률

CVR (Conversion Rate): 클릭 대비 전환율

CAC (Customer Acquisition Cost): 한 고객을 유치하는데 든 비용

이렇게 계산하면 어떤 광고가 가장 효율적인지 한눈에 비교할 수 있다.

3. 세그먼트별 효율 분석

seg = df.groupby("Age")[["CTR","CVR","CAC"]].mean().reset_index()
seg

예시 결과 (Kaggle 데이터 기준):

특정 연령대/성별에서 CTR과 CVR이 높고 CAC가 낮음 → 효율적인 타깃

반대로 CTR은 높은데 CVR이 낮으면 → 클릭만 많고 구매로 이어지지 않는 타깃

실제 캠페인에서는 연령·성별·국가·플랫폼별 세그먼트 분석으로 “ROI가 높은 고객군”을 찾는다.

4. A/B 테스트 시뮬레이션

from statsmodels.stats.proportion import proportions_ztest

# 가상 A/B 안 (전환수/노출수)
conv_A, imp_A = 950, 50000
conv_B, imp_B = 1100, 50000

z, p = proportions_ztest([conv_A, conv_B], [imp_A, imp_B])
cr_A, cr_B = conv_A/imp_A, conv_B/imp_B
lift = (cr_B - cr_A)/cr_A

print(f"CR_A={cr_A:.3%}, CR_B={cr_B:.3%}, Lift={lift:.1%}, p={p:.4f}")

A안: 기존 메시지

B안: 인플루언서·SNS 강조 메시지

판정 기준: p < 0.05 & Lift ≥ +10% → B안 성공

실제 캠페인에서는 이 코드에 실제 전환수와 노출수만 입력하면 바로 검정 결과를 확인할 수 있다.

5. 인사이트

이번 Kaggle 데이터 시뮬레이션에서는

연령별로 효율 차이가 뚜렷하게 나타났다.

A/B 테스트도 적용 가능한 구조를 만들었고,

어떤 메시지가 더 전환율을 끌어올리는지 검증 가능하다.

실제 브랜드 캠페인에서는 데이터를 교체만 하면

동일한 분석 프로세스로

ROI 높은 세그먼트 발굴 + 메시지 최적화를 할 수 있다.

7주차 계획

다음 단계(7주차)에서는 검색광고(SEM) 시뮬레이션을 진행.

입력값: 키워드, 월간 검색량, CPC, 경쟁도

산출값: 예상 노출수, 클릭수, 전환수, 비용 (예산 한도 내)

활용: 예산 대비 효율이 높은 키워드를 선별하여 광고 집행 전략 최적화

중장기적으로는 SEO 전략까지 확장해,

광고와 자연검색 트래픽을 통합적으로 관리하는 방향까지 연결할 예정.

4. 데이터 분석가 프로젝트 5주차 수행일지

뺩빱 — Fri, 12 Sep 2025 11:00:28 +0900

4주차에는 광고 예산과 인력이 무한하지 않다는 점을 고려하여,
우선 가장 효율이 높은 고객 세그먼트를 선별해야 한다고 판단했다.

이에 따라 5주차에는 데이터를 기반으로 분석을 진행해,
어떤 그룹을 우선 공략했을 때 ROI가 가장 높을지를 도출했다.

[멀티캠퍼스 KDT 데이터 분석가 최종 프로젝트 5주차 수행일지]

1. 데이터 준비

import pandas as pd
df = pd.read_csv("tourist_data.csv")
df.head()

데이터 출처: 외래관광객 조사 2분기 잠정치
주요 변수: 점유율, 성장률, 만족도, 방문객 규모

2. ROI 점수 산출

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
df[['점유율_n','성장률_n','만족도_n','방문객규모_n']] = scaler.fit_transform(
    df[['점유율','성장률','만족도','방문객규모']]
)

df['ROI_score'] = df[['점유율_n','성장률_n','만족도_n','방문객규모_n']].mean(axis=1)
df[['세그먼트','ROI_score']].sort_values(by='ROI_score', ascending=False).head()

네 가지 지표를 정규화 후 평균하여 ROI Score로 정의
결과: 여성 청년층(친구·커플), 여성 30~40대, 가족 동반이 Top3

3. 클러스터링(KMeans)

from sklearn.cluster import KMeans
X = df[['점유율_n','성장률_n','만족도_n','방문객규모_n']]
km = KMeans(n_clusters=2, random_state=42)
df['cluster'] = km.fit_predict(X)
df.groupby('cluster').mean()

데이터 기반으로 행동 그룹을 도출 (Cluster 0: 가족 중심, Cluster 1: 여성 중심)

4. 시각화

import matplotlib.pyplot as plt

plt.scatter(df['성장률'], df['만족도'], 
            s=df['방문객규모']/50, 
            c=df['ROI_score'], cmap='coolwarm', alpha=0.7)
plt.xlabel("성장률")
plt.ylabel("만족도")
plt.title("세그먼트별 성장률 vs 만족도 (버블=규모, 색=ROI)")
plt.colorbar(label="ROI Score")
plt.show()

버블차트: 성장률 vs 만족도, 버블 크기=방문객 규모, 색=ROI Score

Top ROI 세그먼트 (버블 크고, 색 진하게 나온 그룹)

여성 청년층 (친구·커플 여행)
성장률↑, 만족도↑, 방문객 규모↑ → ROI Score 가장 높음
여성 30~40대 (자녀 동반 가능)
체류기간·지출 여력 높음, 성장률도 안정적 → ROI 상위권
가족 동반 (청소년 포함)
방문객 규모 크고 만족도도 준수 → ROI 점수 상위

ROI 중간 세그먼트

일부 여성 기타 그룹: 규모는 있지만 성장률/만족도가 중간 수준
여성 청년(커플 외 단체): 반응은 있으나 ROI Score은 상위권 대비 다소 낮음

ROI 낮은 세그먼트

액티브 시니어 남성: 방문객 규모가 작아 ROI Score 낮음
기타 소수 그룹: 성장률·만족도 모두 낮아 우선순위에서 제외

5. 마케팅 인사이트 도출

여성 청년층(친구·커플) → SNS·인플루언서 / K-뷰티·패션 연계
여성 30~40대 (자녀 동반 가능) → 쇼핑·패밀리 패키지 상품
가족 동반 청소년 포함 → 체험형 패밀리 콘텐츠 / 여행 패키지
남성(액티브 시니어) → 레저·스포츠·역사 체험 패키지

6. A/B 테스트 설계 & 시뮬레이션

1. 가설 설정

대상: 여성 청년층(친구·커플)
A안: 기존 메시지/광고
B안: 인플루언서·SNS 강조 메시지
목표: 전환율 +10% 이상 개선, p<0.05 유의

2. 표본 수 계산 (시뮬레이션)

from statsmodels.stats.power import NormalIndPower
from statsmodels.stats.api import proportion_effectsize

p1 = 0.020   # 현재 전환율 (2%)
mde = 0.10   # +10% 개선 목표
p2 = p1 * (1 + mde)

es = proportion_effectsize(p1, p2)
n = NormalIndPower().solve_power(effect_size=es, alpha=0.05, power=0.8)
print("그룹당 최소 노출수:", int(n))

→ 결과: 그룹당 최소 노출수 80637 (시뮬레이션 기준)

3. 가상 데이터로 검정 (시뮬레이션)

from statsmodels.stats.proportion import proportions_ztest

conv_A, imp_A = 950, 50000   # A안 전환수/노출수
conv_B, imp_B = 1100, 50000  # B안 전환수/노출수

z, p = proportions_ztest([conv_A, conv_B], [imp_A, imp_B])
cr_A, cr_B = conv_A/imp_A, conv_B/imp_B
lift = (cr_B-cr_A)/cr_A

print(f"CR_A={cr_A:.2%}, CR_B={cr_B:.2%}, Lift={lift:.1%}, p={p:.4f}")

결과 (시뮬레이션): CR_A=1.9%, CR_B=2.2%, Lift=+15%, p<0.05
→ 메시지 B가 더 효과적일 가능성을 확인

6주차 계획

5주차에서 우선 공략할 핵심 그룹을 도출했으므로,
6주차에는 이를 기반으로 실제 캠페인 상황을 가정한
A/B 테스트 시뮬레이션을 진행하여,
실행 가능성과 기대 효과를 검증할 예정이다.

주요 계획

• 가상 캠페인 로그 생성: 세그먼트별(A/B) 노출·전환·비용·매출 데이터 준비
• 통계 검정: 전환율 차이에 대한 z-test, Lift%, p-value 산출
• 효율 분석: CAC/ROAS 계산으로 비용 대비 효과 평가
• 의사결정 규칙 적용: p<0.05 & Lift≥+10% 충족 시 채택, 그렇지 않으면 재실험/메시지 조정

추가 시뮬레이션

SEO & 검색광고 시뮬레이션 (고려)
SEM (검색광고)

입력: 키워드, 월간검색량, CPC, 경쟁도
산출: 예상 노출수, 클릭수, 전환수, 비용 (예산 한도 내)
활용: 예산 대비 효율 키워드 선별

SEO (검색최적화)

입력: 키워드 난이도(kd), 페이지 점수(콘텐츠/백링크/기술)
산출: 기대순위(rank_exp), Top10/Top3 진입 확률, 예상 클릭수/전환수
활용: 중장기적으로 SEO 투자 가치 있는 키워드 식별

3. 데이터 분석가 프로젝트 4주차 수행일지

뺩빱 — Fri, 5 Sep 2025 00:38:50 +0900

3주차에는 시장 점유율 분석을 통해
20~30대 여성과 60대 남성이라는
핵심 세그먼트를 도출했고,

4주차에는 규모와 성장률을 반영해
우선순위를 점수화함으로써
우선 공략해야 할 세그먼트를 명확히 알 수 있었다.

[멀티캠퍼스 KDT 데이터 분석가 최종 프로젝트 4주차 수행일지]

1. 월별 세그먼트 피처테이블 확정

# ① 방문객 원천 불러와 월별 세그먼트 집계
visit_raw = load_csv(RAW_VISIT, encoding='cp949')
visit_m = make_visit_month(visit_raw)  # ['월','성별','연령별','목적별','방문객']

# ② 2023/2024 연도별 세그먼트 합계, 점유율·성장률 계산
visit_m['연도'] = pd.to_datetime(visit_m['월']).dt.year
seg_year = (visit_m.groupby(['연도','성별','연령별','목적별'], as_index=False)['방문객']
                     .sum().rename(columns={'방문객':'연간방문'}))

tot_by_year = seg_year.groupby('연도')['연간방문'].sum().rename('연도합')
seg_year = seg_year.merge(tot_by_year, on='연도')
seg_year['연도점유율'] = seg_year['연간방문']/seg_year['연도합']

# 2023↔2024 피벗으로 YoY
yoy = (seg_year.pivot(index=['성별','연령별','목적별'], columns='연도', values='연간방문')
              .rename_axis(None, axis=1).reset_index())

# 안전한 성장률 (분모 0 방지)
eps = 1e-9
yoy['성장률_YoY'] = (yoy.get(2024,0) - yoy.get(2023,0)) / (yoy.get(2023,0)+eps)

# 2024 점유율
share24 = (seg_year[seg_year['연도']==2024]
           .loc[:,['성별','연령별','목적별','연도점유율']]
           .rename(columns={'연도점유율':'점유율_2024'}))

seg_base = (yoy.merge(share24, on=['성별','연령별','목적별'], how='left')
                .rename(columns={2023:'방문_2023', 2024:'방문_2024'}))
seg_base[['방문_2023','방문_2024','점유율_2024','성장률_YoY']].fillna(0, inplace=True)

# 저장
save_parquet(visit_m, DATA/'interim'/'visit_month.parquet')
save_parquet(seg_base, DATA/'processed'/'segment_base.parquet')
print("✅ 세그먼트 피처테이블 완료:", seg_base.shape)
display(seg_base.sort_values('점유율_2024', ascending=False).head(10))

성별·연령·방문 목적별로 데이터를 세분화해
2023년과 2024년 방문객 수를 비교했다.

그 결과 여성 20~30대 관광객의 비중이 특히 높고,
연간 성장률도 뚜렷하게 나타났다.

여성 21~30세 관광객은 전년 대비 63% 증가하며
2024년 전체 방문객의 15.4%를 차지했다.

→ 타깃 세그먼트의 시장 성장 잠재력 확인

2. 베이스라인 예측 백테스트

import numpy as np
import pandas as pd

def seasonal_naive_backtest(visit_m: pd.DataFrame, s: int = 6, test_year: int = 2024):
    """
    visit_m: ['월','성별','연령별','목적별','방문객'] 포함, 월말(datetime64[ns]) 권장
    s: 시즌널 시차(기본 6개월)
    test_year: 평가 연도(기본 2024)
    """
    df = visit_m.copy()
    # 월 빈도 정렬/정규화
    df = df.sort_values('월')
    results = []

    for (gender, age, purpose), g in df.groupby(['성별','연령별','목적별'], dropna=False):
        # 월별 인덱스 정렬 및 결측 월 보존
        g = g[['월','방문객']].set_index('월').sort_index()
        g = g.asfreq('M')  # 월말 기준 인덱스 맞춤(예: 2024-01-31)

        # 시즌널-나이브 예측
        g['yhat'] = g['방문객'].shift(s)

        # 테스트 마스크: (해당 연도) & (시차 존재)
        mask = (g.index.year == test_year) & g['yhat'].notna() & g['방문객'].notna()
        y = g.loc[mask, '방문객']
        yhat = g.loc[mask, 'yhat']
        n = len(y)

        # MAPE 계산(0 나눗셈 방지)
        if n > 0:
            denom = y.replace(0, np.nan)
            mape = ((y - yhat).abs() / denom).mean() * 100
        else:
            mape = np.nan

        results.append({
            '성별': gender, '연령별': age, '목적별': purpose,
            f'MAPE_{test_year}': float(mape) if pd.notna(mape) else np.nan,
            'n_test': int(n)
        })

    out = pd.DataFrame(results).sort_values([f'MAPE_{test_year}','n_test'], ascending=[True, False])
    return out

# 사용 예시: visit_m 는 ['월','성별','연령별','목적별','방문객']가 있는 월집계 테이블
bt = seasonal_naive_backtest(visit_m, s=6, test_year=2024)
print("✅ 백테스트 완료:", bt.shape)
bt.head(15)

6개월 시차를 둔 시즌널 나이브 모델로
2024년 방문객 수를 예측하고 실제값과 비교했다.

예측 오차율를 기준으로 보았을 때,
일부 그룹은 10~12% 수준의 안정적인 예측 정확도를 보였다.

3. 감성-방문 리드/래그 상관분석

import pandas as pd
import numpy as np

# 파일 경로
PATH_SENTI   = "/content/drive/MyDrive/데이터분석/외래객방한데이터(한국관광공사)/20250813164536_한국 관광 관련 긍부정 점유율 추이.csv"
PATH_MENTION = "/content/drive/MyDrive/데이터분석/외래객방한데이터(한국관광공사)/20250813164522_한국 관광 관련 언급량 인게이지먼트 추이 언급량.csv"

# 1) 감성(글로벌) 월 정규화
senti = pd.read_csv(PATH_SENTI)
# 기준년월이 202408 같은 int면 문자열로 바꿔서 파싱
senti['월'] = pd.to_datetime(senti['기준년월'].astype(str), format='%Y%m', errors='coerce')\
                 .dt.to_period('M').dt.to_timestamp('M')

# '국가' 컬럼이 있으면 글로벌만 사용
if '국가' in senti.columns:
    senti = senti[senti['국가'].astype(str).str.contains('글로벌', na=False)]

senti_m = senti.groupby('월', as_index=False)[['긍정','부정']].mean()
senti_m['폴라리티'] = senti_m['긍정'] - senti_m['부정']

print("감성 월 범위:", senti_m['월'].min(), "~", senti_m['월'].max(), "| rows:", len(senti_m))

# 2) 언급량 월 정규화
men = pd.read_csv(PATH_MENTION)

# 이미 men['월']이 있다면 그대로 쓰고, 없으면 기준년월로 생성
if '월' not in men.columns:
    men['월'] = pd.to_datetime(men['기준년월'].astype(str), format='%Y%m', errors='coerce')\
                  .dt.to_period('M').dt.to_timestamp('M')

# 월 단위 합산 (국가/채널 축이 있으면 월 기준 총합)
mention_m = men.groupby('월', as_index=False)[['언급량']].sum()

print("언급량 월 범위:", mention_m['월'].min(), "~", mention_m['월'].max(), "| rows:", len(mention_m))

# 3) 교집합 확인 & 병합 
df = mention_m.merge(senti_m[['월','폴라리티']], on='월', how='inner').sort_values('월')
print("병합 후 rows:", len(df))
print("교집합 월:", df['월'].dt.strftime('%Y-%m').tolist())

# 4) 리드/래그 상관 
def leadlag_corr(df, y='언급량', x='폴라리티', max_lag=3):
    rows=[]
    for k in range(0, max_lag+1):
        tmp = df[[y,x]].copy()
        tmp[f'{x}_lag{k}'] = tmp[x].shift(k)  # 감성이 k개월 앞서는지 확인
        tmp = tmp[[y, f'{x}_lag{k}']].dropna()
        corr = tmp[y].corr(tmp[f'{x}_lag{k}']) if len(tmp)>=3 else np.nan
        rows.append({'lag_months':k, 'corr':corr, 'n':len(tmp)})
    return pd.DataFrame(rows)

corr_tbl = leadlag_corr(df, y='언급량', x='폴라리티', max_lag=3)
print("✅ 프록시(언급량) vs 감성 리드/래그 상관")
print(corr_tbl)

# df: ['월','언급량','폴라리티'] 정렬 완료 상태
import numpy as np, pandas as pd

# 1) 단순 회귀: Mentions_t ~ Polarity_{t-1}
df2 = df.copy()
df2['pol_lag1'] = df2['폴라리티'].shift(1)
m = df2.dropna()
X = (m['pol_lag1'] - m['pol_lag1'].mean())/m['pol_lag1'].std()
y = (m['언급량'] - m['언급량'].mean())/m['언급량'].std()
beta = np.dot(X, y) / np.dot(X, X)
r2 = np.corrcoef(X, y)[0,1]**2
print(f"β(lag1): {beta:.3f}, R²: {r2:.3f}, N={len(m)}")

# 2) 퍼뮤테이션 테스트(유의성 감각)
rng = np.random.default_rng(42)
obs = np.corrcoef(X, y)[0,1]
cnt=0
for _ in range(5000):
    y_perm = rng.permutation(y)
    if abs(np.corrcoef(X, y_perm)[0,1]) >= abs(obs):
        cnt+=1
p = cnt/5000
print(f"corr(lag1)={obs:.3f}, permutation p≈{p:.3f}")

import matplotlib.pyplot as plt

m = df.copy()
m['pol_lag1'] = m['폴라리티'].shift(1)
m = m.dropna()

plt.figure(figsize=(6,5))
plt.scatter(m['pol_lag1'], m['언급량'], alpha=0.7)
z = np.polyfit(m['pol_lag1'], m['언급량'], 1); p = np.poly1d(z)
xv = np.linspace(m['pol_lag1'].min(), m['pol_lag1'].max(), 50)
plt.plot(xv, p(xv), lw=2)
plt.title("폴라리티(t-1) vs 언급량(t)")
plt.xlabel("Polarity (t-1)"); plt.ylabel("Mentions (t)")
plt.tight_layout(); plt.show()

관광 관련 긍·부정 감성 점유율과
언급량 데이터를 결합해, 선행성 여부를 검토했다.

그 결과, 감성 지수가 1개월 앞설 때
언급량과의 상관관계가 0.26 수준으로 양의 상관을 보였다.

긍정적 감성 변화가 이후
언급량 증가를 유도할 가능성을 보였다.
다만, 표본이 적어 통계적 유의성은 낮아
추가 데이터 확보가 필요하다.

4. 타깃 세그먼트 우선순위 도출

import pandas as pd, numpy as np, matplotlib.pyplot as plt, seaborn as sns
from pathlib import Path
from config import DATA, ART
plt.rcParams['font.family'] = 'NanumGothic'

# 1) 데이터
visit_m = pd.read_parquet(DATA/'interim'/'visit_month.parquet')  # [월, 성별, 연령별, 목적별, 방문객]

# 2) B2C 필터: 승무원/공용/상용 제외, 관광만
EXCLUDE = {'승무원','공용','상용'}
visit_m = visit_m[
    (~visit_m['성별'].isin(EXCLUDE)) &
    (~visit_m['연령별'].isin(EXCLUDE)) &
    (visit_m['목적별'] == '관광')
].copy()

# 3) 연도 집계 & 지표
visit_m['연도'] = pd.to_datetime(visit_m['월']).dt.year
g_year = (visit_m.groupby(['연도','성별','연령별','목적별'], as_index=False)['방문객'].sum())
tot24 = g_year.loc[g_year['연도']==2024, '방문객'].sum()

wide = (g_year.pivot(index=['성별','연령별','목적별'], columns='연도', values='방문객')
             .rename(columns={2023:'y23', 2024:'y24'})
             .reset_index()
             .fillna(0))
wide['점유율'] = np.where(tot24>0, wide['y24']/tot24, 0)
wide['YoY'] = np.where(wide['y23']>0, (wide['y24']-wide['y23'])/wide['y23'], np.nan)
wide['YoY'] = wide['YoY'].replace([np.inf,-np.inf], np.nan).fillna(0.0).clip(-0.2, 1.2)
wide['방문객_2024'] = wide['y24']

# 4) MAPE(2024, MA(3) 베이스라인)
def mape_2024_ma3(df):
    df = df.sort_values('월').copy()
    df['pred'] = df['방문객'].rolling(3).mean().shift(1)
    df['연도'] = pd.to_datetime(df['월']).dt.year
    test = df[df['연도']==2024].dropna(subset=['pred'])
    if test.empty:
        return pd.Series({'MAPE_2024': np.nan})
    return pd.Series({'MAPE_2024': (np.abs((test['방문객']-test['pred'])/test['방문객'])).mean()})

mape_tbl = (visit_m.groupby(['성별','연령별','목적별']).apply(mape_2024_ma3).reset_index())
seg = wide.merge(mape_tbl, on=['성별','연령별','목적별'], how='left')
# MAPE 결측 보정(중앙값)
seg['MAPE_2024'] = seg['MAPE_2024'].fillna(seg['MAPE_2024'].median())

# 규모 하한
MIN_SHARE, MIN_CNT = 0.015, 200_000
seg = seg[(seg['점유율']>=MIN_SHARE) & (seg['방문객_2024']>=MIN_CNT)].copy()

# 5) 점수화(정규화) + 랭킹
def norm01(s):
    s = s.astype(float)
    if s.notna().sum()<=1 or s.max()==s.min():
        return pd.Series(np.zeros(len(s)), index=s.index)
    return (s - s.min())/(s.max()-s.min())

seg['점유_n'] = norm01(seg['점유율'])
seg['YoY_n']  = norm01(seg['YoY'])
seg['MAPE_n'] = norm01(seg['MAPE_2024'])  # 클수록 나쁨
seg['우선순위점수'] = 0.6*seg['점유_n'] + 0.4*seg['YoY_n'] - 0.3*seg['MAPE_n']

top10 = (seg.sort_values('우선순위점수', ascending=False)
            .head(10)
            .assign(라벨=lambda d: d['성별']+' / '+d['연령별']+' / 관광'))

# 저장 + 플롯
out_csv = ART/'reports'/'week3_top_segments.csv'
Path(out_csv).parent.mkdir(parents=True, exist_ok=True)
top10.to_csv(out_csv, index=False)

plt.figure(figsize=(9,5))
sns.barplot(data=top10, y='라벨', x='우선순위점수', color='#2F80ED')
for i,r in top10.reset_index(drop=True).iterrows():
    txt = f"{r['점유율']*100:.1f}% | 24년 {int(r['방문객_2024']):,}명 | YoY {r['YoY']*100:.1f}%"
    plt.text(r['우선순위점수']+0.01, i, txt, va='center', fontsize=9)
plt.title('세그먼트 우선순위 Top 10')
plt.xlabel('우선순위점수'); plt.ylabel('')
plt.tight_layout()
plt.savefig(ART/'figures'/'week3_top_segments.png', dpi=150)
plt.show()


pick = topN[['성별','연령별','목적별','점유율','YoY','MAPE_2024','우선순위점수']].head(3)
print("\n  추천 타깃(3):\n", pick.to_string(index=False))

승무원·공용·상용 목적을 제외하고,
관광객 세그먼트만 대상으로
점유율·성장률·예측오차를 종합 점수화했다.

그 결과, 우선 순위 1위는 여성 21~30대 관광객이었으며,
2024년 기준 점유율과 성장률 모두 높은 집단으로 확인되었다.

→ 향후 마케팅 타깃 선정 확정

5주차 계획

차주에는 4주차 결과를 바탕으로 마케팅 SEO 작업을 위해 타깃별 우선 키워드를 선정하고
상위 노출과 조회수 예측 모델을 실행할 예정이다.

키워드 마스터, 블랙키위에서 키워드의 검색량·경쟁도·콘텐츠 특성을 CSV로 뽑고, 특정 키워드 사용 시 예상 조회수와 상위 노출(Top 10 진입) 확률을 예측하는 것이다.

2. 데이터 분석가 프로젝트 3주차 수행일지

뺩빱 — Tue, 26 Aug 2025 18:46:09 +0900

이번 주차는 한국관광공사 월별 상세 데이터(성별·연령·목적) 중심으로
방한 외래관광객의 성별·연령·목적별 패턴을 파악하고,
세그먼트별 규모×성장률을 정량화해
마케팅 타깃 우선순위를 정했다.

[멀티캠퍼스 KDT 데이터 분석가 최종 프로젝트 3주차 수행일지]

3주차 프로젝트 개요:
- 방문객 데이터 정제(연-월→연도), 성별/연령/목적 교차분석
- 규모지수×성장지수 기반 세그먼트 우선순위 점수 도출
- 히트맵(성별×목적, 연령×목적)으로 집중 타깃 포인트 시각화
분석 결과:
- 여성 21–30세 관광이 최대 규모 & 높은 성장(Large & Fast)
- 남성 61세 이상/20세 이하 관광이 고성장 니치(Niche & Fast)
- 남성 관광/쇼핑 목적 전 연령대가 전년 대비 플러스 성장
마케팅 액션
- 메인: 여성 20–40대 관광 페르소나 우선 공략
- 보조: 남성 고관여(61+) & Z 세대(≤20) 니치 테스팅 패키지 운영

진행과정

1. EDA

# 기본 라이브러리
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import matplotlib.font_manager as fm

#한글
!apt-get update -qq
!apt-get install fonts-nanum -qq

plt.rcParams['font.family'] = 'NanumGothic'
plt.rcParams['axes.unicode_minus'] = False

fm.fontManager.addfont('/usr/share/fonts/truetype/nanum/NanumGothic.ttf')
plt.rc('font', family='NanumGothic')

# 1. 국가별 외국인 방문 현황
df_visitors = dfs["국가별 외국인 방문 현황"]

print("국가별 외국인 방문 현황 (상위 5행)")
display(df_visitors.head())

# 국가별 합계
country_sum = df_visitors.groupby("국가")["방문자 비율"].sum().sort_values(ascending=False).head(10)

plt.figure(figsize=(10,6))
sns.barplot(x=country_sum.values, y=country_sum.index, palette="viridis", hue=country_sum.index, legend=False)
plt.title("상위 10개국 외국인 방문객수")
plt.xlabel("방문객 수")
plt.ylabel("국가")
plt.show()

-> 중국·일본 중심, 아시아권 비중 압도적

2. 방문객 데이터 개별 분석

# 데이터 로드 & 전처리
df_monthly = pd.read_csv("/content/drive/My Drive/데이터분석/외래객방한데이터(한국관광공사)/한국관광공사_방한 외래관광객 상세 월별 집계.csv", encoding='cp949')
df_monthly['기준연월'] = pd.to_datetime(df_monthly['기준연월'], errors='coerce')
df_monthly = df_monthly.dropna(subset=['기준연월']).copy()
df_monthly['연도'] = df_monthly['기준연월'].dt.year

print("✅ 방문객 데이터 로드 및 전처리 완료")
print(df_monthly.head())
print("\n데이터 정보:")
df_monthly.info()

# 연도별 총 방문객 수
df_visit_year = df_monthly.groupby("연도")["인원수"].sum().reset_index()
plt.figure(figsize=(10, 6))
sns.lineplot(data=df_visit_year, x="연도", y="인원수", marker="o")
plt.title("연도별 총 방한 외래관광객 수 추이")
plt.xlabel("연도"); plt.ylabel("방문객 수")
plt.xticks(sorted(df_visit_year["연도"].unique()))
plt.grid(True); plt.show()

-> 한국을 찾는 외래관광객은 꾸준히 증가 중

3. 감성 데이터 개별 분석

# 1. 라이브러리 불러오기
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.font_manager as fm
import matplotlib.dates as mdates 

# 2. 데이터 불러오기 (감성 관련 데이터만)
df_sentiment = pd.read_csv("/content/drive/MyDrive/데이터분석/외래객방한데이터(한국관광공사)/20250813164536_한국 관광 관련 긍부정 점유율 추이.csv")
df_image = pd.read_csv("/content/drive/MyDrive/데이터분석/외래객방한데이터(한국관광공사)/20250813164348_방한 여행 이미지.csv")

print("✅ 감성 관련 데이터 로드 완료")

# 2. 긍부정 점유율 추이 분석
df_sentiment['기준년월'] = df_sentiment['기준년월'].astype(str)
df_sentiment['기준년월'] = pd.to_datetime(df_sentiment['기준년월'], format='%Y%m', errors='coerce')
df_sentiment = df_sentiment.dropna(subset=['기준년월']).copy()

df_sentiment_global = df_sentiment[df_sentiment['국가'] == '글로벌'].copy()

print("\nDebug: df_sentiment_global '기준년월' dtype after conversion:", df_sentiment_global['기준년월'].dtype)
print("Debug: df_sentiment_global '기준년월' unique values after conversion:", df_sentiment_global['기준년월'].unique())


# 시간 경과에 따른 긍정/부정 비율 추이 시각화
fig, ax = plt.subplots(figsize=(12, 6))
sns.lineplot(data=df_sentiment_global, x='기준년월', y='긍정', marker='o', label='긍정', ax=ax) 
sns.lineplot(data=df_sentiment_global, x='기준년월', y='부정', marker='o', label='부정', ax=ax) 
plt.title("한국 관광 관련 긍/부정 점유율 추이 (글로벌)")
plt.xlabel("기간")
plt.ylabel("비율 (%)")
plt.legend()
plt.grid(True)

ax.xaxis.set_major_locator(mdates.MonthLocator(interval=1)) 
ax.xaxis.set_major_formatter(mdates.DateFormatter('%Y-%m')) 
plt.xticks(rotation=45) 
plt.tight_layout()
plt.show()

-> 전반적으로 긍정이 높지만, 특정 시기에 부정 반응이 상승

4. 성별 & 연령별 관광객 분포

# 1. 세그먼트별 집계 (성별, 연령, 목적)

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

# 성별-연령대별 집계
segment_gender_age = df_monthly.groupby(["성별", "연령별"])["인원수"].sum().reset_index()

plt.figure(figsize=(10,6))
sns.barplot(data=segment_gender_age, x="연령별", y="인원수", hue="성별", palette="Set2")
plt.title("성별 & 연령별 관광객 분포")
plt.xticks(rotation=45)
plt.show()

-> 여성·20~30대가 핵심 세그먼트

# 목적별 집계
segment_purpose = df_monthly.groupby("목적별")["인원수"].sum().reset_index()

plt.figure(figsize=(8,6))
sns.barplot(data=segment_purpose, x="목적별", y="인원수", palette="viridis")
plt.title("방문 목적별 관광객 분포")
plt.show()

-> 관광 목적이 압도적, 그 외(상용/유학)는 소수

5. 관광객 수요예측

# Prophet 기반 연도별 관광객 수요 예측 (2025년)

from prophet import Prophet
import matplotlib.pyplot as plt

# 1. 연도별 관광객 집계
visit_by_year = df_visit.groupby("연도", as_index=False)["인원수"].sum()

# 2. Prophet 입력용 데이터 변환 (연도 → datetime)
df_prophet = visit_by_year.copy()
df_prophet["ds"] = pd.to_datetime(df_prophet["연도"].astype(str) + "-01-01")  
df_prophet["y"] = df_prophet["인원수"]
df_prophet = df_prophet[["ds", "y"]]

# 데이터 확인
print(df_prophet.tail())

# 3. Prophet 모델 생성 및 학습
model = Prophet(yearly_seasonality=True, daily_seasonality=False, weekly_seasonality=False)
model.fit(df_prophet)

# 4. 미래 데이터프레임 생성 (향후 3년 → 2026, 2027, 2028 예측)
future = model.make_future_dataframe(periods=3, freq="Y")
forecast = model.predict(future)

# 5. 예측 결과 시각화
fig1 = model.plot(forecast)
plt.title("연도별 관광객 수요 예측 (Prophet, 2025 기준)")
plt.show()

# 6. 트렌드 및 계절성 분해 시각화
fig2 = model.plot_components(forecast)
plt.show()

# 7. 최신 예측 데이터 확인 (2023~2028년)
forecast[['ds', 'yhat', 'yhat_lower', 'yhat_upper']].tail(8)

-> 2025~2026년에도 증가세 지속, 성장 기회 크다

6. 세그먼트 우선순위 랭킹

# 세그먼트 우선순위 점수(랭킹) – 23→24 규모+성장 기반

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm


# 0) 데이터 로드
try:
    df_visit
except NameError:
    df_visit = pd.read_csv("/content/drive/MyDrive/데이터분석/외래객방한데이터(한국관광공사)/한국관광공사_방한 외래관광객 상세 월별 집계.csv", encoding="cp949")
    df_visit["기준연월"] = pd.to_datetime(df_visit["기준연월"], errors="coerce")
    df_visit["연도"] = df_visit["기준연월"].dt.year

# 1) 기본 전처리: 불필요 카테고리 정리(승무원 등), 결측 제거
dfv = df_visit.copy()
if "성별" in dfv.columns:
    dfv = dfv[~dfv["성별"].isin(["승무원"])]
if "연령별" in dfv.columns:
    dfv = dfv[~dfv["연령별"].isin(["승무원", None, np.nan])]
dfv = dfv.dropna(subset=["연도","인원수"])

# 2) 파라미터
BASE_YEAR   = 2023
TARGET_YEAR = 2024
SEG_KEYS    = ["성별","연령별","목적별"]
W_SIZE, W_GROWTH = 0.6, 0.4               # 점수 가중치(규모 60%, 성장 40%)

# 3) 연도별 집계
g = (dfv.groupby(SEG_KEYS+["연도"])["인원수"]
        .sum()
        .reset_index())

# 4) Wide 변환(연도별 칼럼)
wide = (g.pivot_table(index=SEG_KEYS, columns="연도", values="인원수", aggfunc="sum")
          .fillna(0)
          .reset_index())

# 5) 지표 계산
if BASE_YEAR not in wide.columns:  wide[BASE_YEAR] = 0
if TARGET_YEAR not in wide.columns: wide[TARGET_YEAR] = 0

wide.rename(columns={
    BASE_YEAR: f"{BASE_YEAR}인원",
    TARGET_YEAR: f"{TARGET_YEAR}인원"
}, inplace=True)

# 성장률 계산 (분모 0인 경우 NaN 발생)
wide["YoY성장률"] = (wide[f"{TARGET_YEAR}인원"] - wide[f"{BASE_YEAR}인원"]) / wide[f"{BASE_YEAR}인원"]

# 분모가 0인 경우 (즉, 2023년 인원이 0인 경우):
# - 2024년 인원도 0이면 성장률 0
# - 2024년 인원이 0보다 크면 성장률 1 (무한대 성장을 1로 간주)
wide["YoY성장률"] = wide["YoY성장률"].fillna(0) # 기본적으로 NaN을 0으로 채우고

# 2023년 0명 -> 2024년 > 0 명 된 경우를 1로 업데이트
wide["YoY성장률"] = wide["YoY성장률"].where(
    ~((wide[f"{BASE_YEAR}인원"] == 0) & (wide[f"{TARGET_YEAR}인원"] > 0)),
    1.0
)


# 6) 정규화(0~1)
def minmax(s):
    lo, hi = s.min(), s.max()
    return (s - lo) / (hi - lo) if hi > lo else pd.Series(0.5, index=s.index)

wide["크기지수"]  = minmax(wide[f"{TARGET_YEAR}인원"])
wide["성장지수"]  = minmax(wide["YoY성장률"])

# 7) 종합 점수
wide["점수"] = W_SIZE*wide["크기지수"] + W_GROWTH*wide["성장지수"]

# 8) 분류 태그(해석용)
wide["분류"] = np.select(
    [
        (wide["크기지수"]>=0.5) & (wide["성장지수"]>=0.5),
        (wide["크기지수"]>=0.5) & (wide["성장지수"]<0.5),
        (wide["크기지수"]<0.5)  & (wide["성장지수"]>=0.5),
    ],
    ["Large & Fast","Large & Flat","Niche & Fast"],
    default="Niche & Flat"
)

# 9) 2024 점유율(비중)
total_2024 = wide[f"{TARGET_YEAR}인원"].sum()
wide["2024점유율(%)"] = np.where(total_2024>0, wide[f"{TARGET_YEAR}인원"]/total_2024*100, 0)

# 10) 랭킹 정렬 및 출력
ranked = (wide
          .sort_values("점수", ascending=False)
          .reset_index(drop=True))

print("✅ 세그먼트 우선순위 TOP 15")
display(ranked[SEG_KEYS+[f"{BASE_YEAR}인원",f"{TARGET_YEAR}인원","YoY성장률","크기지수","성장지수","점수","분류","2024점유율(%)"]].head(15))

# 10-1) 점유율 기준 랭킹 테이블 (추가)
ranked_share = (wide
                .sort_values("2024점유율(%)", ascending=False)
                .reset_index(drop=True))
print("✅ 세그먼트 점유율 기준 TOP 15")
display(ranked_share[SEG_KEYS + [f"{TARGET_YEAR}인원","2024점유율(%)","YoY성장률","점수","분류"]].head(15))
# 11) 시각화(Top 10, 정렬: 2024 점유율)
topN = 10
top_plot = ranked_share.head(topN).copy()
labels = top_plot.apply(lambda r: " / ".join([str(r[k]) for k in SEG_KEYS]), axis=1)
plt.figure(figsize=(10,6))
plt.barh(y=labels, width=top_plot["2024점유율(%)"])
plt.gca().invert_yaxis()
plt.title(f"세그먼트 점유율 Top {topN} (정렬: 2024 점유율)")
plt.xlabel("2024 점유율(%)")
# 막대 옆 보조 라벨: 점유율/24년 인원/YoY
for i, (p, cnt, yoy) in enumerate(zip(
    top_plot["2024점유율(%)"],
    top_plot[f"{TARGET_YEAR}인원"],
    top_plot["YoY성장률"]
)):
    plt.text(p + 0.3, i, f"{p:.1f}% | 24년 {cnt:,.0f}명 | YoY {yoy*100:.1f}%", va="center")
plt.tight_layout()
plt.show()

-> 여성 20~30대 관광 목적 방문객이 핵심 타겟

3주차 결과:

발견 단계

여성 20~30대 관광객이 가장 큰 규모이면서 빠른 성장세를 보인다.

남성 61세 이상, 20세 이하 관광객은 소규모지만 빠르게 성장 중이다.

4주차 계획:

검색량 데이터 적재 → 표준화 저장
상위 세그먼트 MA(3) 베이스라인 백테스트
예산 시뮬레이터 테이블/그래프 생성
대시보드 스켈레톤 파일 뼈대 만들기

1. 데이터 분석가 프로젝트 1~2주차 수행일지

뺩빱 — Tue, 19 Aug 2025 12:54:57 +0900

프로젝트 주제는 관광 데이터 기반 외국인 관광객 특성별 패턴 분석이다.

이 주제를 선택한 이유는

거시적(국가 정책) → 중간(기업/시장) → 미시적(고객 경험) 측면에서 볼 때 관광마케팅은 필요하다.
마케팅 실무 + 정부기관 프로젝트 모두에 관심이 있는데, 이 주제는 두 영역을 동시에 포함할 수 있어서 선택했다.

거시적 관점: 국가 정책 & 글로벌 트렌드

최근 정부와 지자체는 외국인 관광객 유치를 국가적 과제로 삼고 있다.
문화체육관광부와 한국관광공사는 외래관광객 유치를 위해 도약을 준비 중이고,
서울 / 부산 / 제주/ 전주 / 경북 지자체는 “세분화된 관광객 타겟팅 + 맞춤형 캠페인” 전략을 추진 중이다.

관광 산업은 단순한 여행 서비스가 아니라 국가 이미지, 지역 경제, 고용 창출까지 직결되는 산업으로 보인다.
따라서 데이터 기반 관광 마케팅 전략은 국가 정책과 산업 트렌드를 뒷받침할 수 있는 중요한 인사이트라고 생각했다.

중간 관점: 시장 & 기업 마케팅

거시적으로는 국가 정책이지만, 현장에서 이걸 실행하는 주체는 기업/에이전시 이다.

특히 마케팅 에이전시는
데이터 기반 의사결정: “어떤 국가에서 어떤 세그먼트가 긍정 경험을 하고, 어떤 부분에서 불편을 느끼는가?”
캠페인 전략 제안: 단순 홍보가 아니라 세그먼트별 맞춤 메시지를 설계해야 한다.
성과 검증: A/B 테스트, ROI 분석 같은 실무적 방법론이 요구된다.

그래서 최종 프로젝트는 실제 마케팅 실무에 바로 적용 가능한 전략 프레임워크를 만드는 것이 목표이다.

미시적 관점: 고객 & 경험
마케팅은 결국 기업/서비스/상품을 사람과 연결하는 하나의 다리이다.
최종 프로젝트를 통해 누가 한국을 찾고 어떤 경험이 긍정/부정으로 이어졌는지
이를 바탕으로 세그먼트별 페르소나와 마케팅 메시지를 구체화 할 예정이다.

방문객 수 + 감성 기반 마케팅 인사이트 도출하기

[멀티캠퍼스 KDT 데이터 분석가 최종 프로젝트 1~2주차 수행일지]

1. 프로젝트 개요

메인 주제: 관광 데이터 기반 외국인 관광객 특성별 패턴분석 및 세분화
서브 주제:
- 비용-효과 기반 마케팅 믹스 모델링(MMM)
- 외국인 관광객 맞춤형 A/B 테스트 전략 시뮬레이션
최종 목표: Top 5 국가별 관광객 행동 데이터를 기반으로, ROI가 높은 채널을 찾아내어 마케팅 인사이트 발굴

2. 데이터셋 확보 현황

관광청/관광공사 제공 13개 CSV (성별·연령별, 목적별, 지역별 방문, 만족도, 긍부정 추이 등)
리뷰 데이터 (외부 논문/공공데이터)
marketing_AB.csv → 국가별/채널별 A/B 테스트 결과
Advertising.csv → 채널별 광고 투자액
market-mix-modeling-using-sales-data.ipynb → MMM 예제 코드 확장
데이터셋

3. 분석 진행 상황

(0) 데이터 전처리

import pandas as pd
csv_files = {
    "국가별 외국인 방문 현황": "/content/drive/My Drive/데이터분석/외래객방한데이터(한국관광공사)/20250813163808_국가별 외국인 방문 현황 CSV 다운로드.csv",
    "방한여행 요약(국적별)": "/content/drive/My Drive/데이터분석/외래객방한데이터(한국관광공사)/20250813164248_방한여행 요약(국적별).csv",
    "방한여행 요약(대륙별)": "/content/drive/My Drive/데이터분석/외래객방한데이터(한국관광공사)/20250813164248_방한여행 요약(대륙별).csv",
    "방한 외래관광객 특성(교통수단별)": "/content/drive/My Drive/데이터분석/외래객방한데이터(한국관광공사)/20250813164323_방한 외래관광객 특성(교통수단별).csv",
    "방한 외래관광객 특성(성·연령별)": "/content/drive/My Drive/데이터분석/외래객방한데이터(한국관광공사)/20250813164323_방한 외래관광객 특성(성·연령별).csv",
    "방한 외래관광객 특성(목적별)": "/content/drive/My Drive/데이터분석/외래객방한데이터(한국관광공사)/20250813164323_방한 외래관광객 특성(목적별).csv",
    "방한여행 행태 및 만족도 평가": "/content/drive/My Drive/데이터분석/외래객방한데이터(한국관광공사)/20250813164343_방한여행 행태 및 만족도 평가.csv",
    "방한 여행 이미지": "/content/drive/My Drive/데이터분석/외래객방한데이터(한국관광공사)/20250813164348_방한 여행 이미지.csv",
    "관광객 지역별 방문비율": "/content/drive/My Drive/데이터분석/외래객방한데이터(한국관광공사)/20250813164557_관광객 지역별 방문비율 CSV 다운로드.csv",
    "긍부정 점유율 추이": "/content/drive/My Drive/데이터분석/외래객방한데이터(한국관광공사)/20250813164536_한국 관광 관련 긍부정 점유율 추이.csv",
    "국가별 관광 포지셔닝 맵": "/content/drive/My Drive/데이터분석/외래객방한데이터(한국관광공사)/20250813164533_국가별 한국 관광 관련 언급 포지셔닝 맵.csv",
    "국가별 언급량·노출량": "/content/drive/My Drive/데이터분석/외래객방한데이터(한국관광공사)/20250813164525_한국 관광 관련 국가별 언급량 인게이지먼트 잠재적 노출량 합산표.csv",
    "관광 언급량 추이": "/content/drive/My Drive/데이터분석/외래객방한데이터(한국관광공사)/20250813164522_한국 관광 관련 언급량 인게이지먼트 추이 언급량.csv",
    "offerings": "/content/drive/My Drive/데이터분석/외래객방한데이터(한국관광공사)/offerings.csv",
    "marketing_AB": "/content/drive/My Drive/데이터분석/외래객방한데이터(한국관광공사)/marketing_AB.csv",
    "Advertising": "/content/drive/My Drive/데이터분석/외래객방한데이터(한국관광공사)/Advertising.csv"
}

headers_preview = {}
for name, path in csv_files.items():
    try:
        df = pd.read_csv(path, nrows=5)
        headers_preview[name] = df.head()
    except Exception as e:
        headers_preview[name] = f"Error: {e}"

headers_preview

결과:

012

(1) 탐색적 데이터 분석 (EDA)

목적: 관광객 기본 특성(연령·성별·방문 목적 등) 및 소셜 언급량 분석

# 폰트설치
!sudo apt-get update -qq
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm -rf ~/.cache/matplotlib

# 한글 제목 깨짐 해결하기
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
font_path = '/usr/share/fonts/truetype/nanum/NanumGothic.ttf'
font_name = fm.FontProperties(fname=font_path).get_name()
plt.rc('font', family=font_name)
plt.rcParams['axes.unicode_minus'] = False
print(f"Matplotlib font set to: {plt.rcParams['font.family']}")

import pandas as pd
import matplotlib.pyplot as plt

try:
    df = pd.read_csv("/content/drive/My Drive/데이터분석/외래객방한데이터(한국관광공사)/20250813164323_방한 외래관광객 특성(성·연령별).csv")
    # '남성'과 '여성' 열을 더하여 총 방문객 수를 계산하고 시각화
    df["총 방문객수"] = df["남성"] + df["여성"]
    df.groupby("연령대")["총 방문객수"].sum().plot(kind="bar")
    plt.title("Visitor Distribution by Age Group")
    plt.show()
except FileNotFoundError:
    print("Error: The file '20250813164323_방한 외래관광객 특성(성·연령별).csv' was not found.")
    print("Please ensure the file is in the correct directory or provide the full path.")
except KeyError as e:
    print(f"KeyError: {e}. Please check the column names in your CSV file.")

인사이트: 20~30대 방문객 비중이 가장 높음 → 마케팅 타겟 우선순위 확보

(2) 리뷰 기반 예측 모델링

목적: 리뷰/만족도 데이터 기반으로 관광객 재방문율 예측 모델 구축

import pandas as pd
# CSV 불러오기
file_path = "/content/drive/My Drive/데이터분석/외래객방한데이터(한국관광공사)/20250813164343_방한여행 행태 및 만족도 평가.csv"
df = pd.read_csv(file_path)

# 데이터 확인 (앞부분 5행, 컬럼명, 기본 통계)
df_head = df.head()
df_columns = df.columns.tolist()
df_info = df.describe(include="all")

df_head, df_columns[:20], len(df_columns)

import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns

# 데이터 불러오기
file_path = "/content/drive/My Drive/데이터분석/외래객방한데이터(한국관광공사)/20250813164343_방한여행 행태 및 만족도 평가.csv"
df = pd.read_csv(file_path)

# Feature / Target 설정
X = df[["체재 기간(일)", "1인 평균 지출 경비(USS)", "1일 평균 지출 경비(USS)",
        "전반적 만족도(긍정 응답 비율)", "타인 추천 의향(긍정 응답 비율)"]]

# target: 재방문 의향 → 85% 이상 긍정(1), 미만은 부정(0)
y = (df["관광목적 재방문 의향(긍정 응답 비율)"] >= 85).astype(int)

# train/test split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 모델 학습
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# 예측
y_pred = model.predict(X_test)

# 평가
print(classification_report(y_test, y_pred))

# 교차 검증
scores = cross_val_score(model, X, y, cv=5)
print("교차검증 Accuracy:", scores)
print("평균 Accuracy:", scores.mean())

# 변수 중요도 시각화
importances = model.feature_importances_
feat_imp = pd.Series(importances, index=X.columns).sort_values(ascending=False)

plt.figure(figsize=(8,5))
sns.barplot(x=feat_imp, y=feat_imp.index)
plt.title("Feature Importance (재방문 의향 예측)")
plt.show()

(3) XGBoost + SHAP 기반 보완 모델

SMOTE를 활용해 클래스 불균형 보정
XGBoost로 재방문율 예측
SHAP을 통해 주요 영향 요인 해석

import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, roc_auc_score, classification_report
from imblearn.over_sampling import SMOTE
import shap
import pandas as pd 

# -----------------------------
# 1. Train / Test Split
# -----------------------------
# stratify=y를 사용하여 타겟 변수의 분포를 고려하여 분할
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=42
)

# -----------------------------
# 2. SMOTE로 클래스 불균형 보정
# -----------------------------
# 소수 클래스 샘플 수에 맞춰 k_neighbors 값을 줄임
# 현재 데이터에서는 소수 클래스 샘플이 3개이므로 k_neighbors를 2로 설정
sm = SMOTE(random_state=42, k_neighbors=2)
X_train_res, y_train_res = sm.fit_resample(X_train, y_train)

# -----------------------------
# 3. XGBoost 모델 학습
# -----------------------------
xgb_model = xgb.XGBClassifier(
    n_estimators=300,
    learning_rate=0.05,
    max_depth=6,
    subsample=0.8,
    colsample_bytree=0.8,
    random_state=42,
    eval_metric="logloss"
)

xgb_model.fit(X_train_res, y_train_res)

# -----------------------------
# 4. 성능 평가
# -----------------------------
y_pred = xgb_model.predict(X_test)
y_prob = xgb_model.predict_proba(X_test)[:,1]

print("Accuracy:", accuracy_score(y_test, y_pred))
print("ROC-AUC:", roc_auc_score(y_test, y_prob))
print(classification_report(y_test, y_pred))

# -----------------------------
# 5. SHAP 값 계산 (모델 설명)
# -----------------------------
explainer = shap.TreeExplainer(xgb_model)
shap_values = explainer.shap_values(X_test)

# Summary Plot (전체 Feature 중요도)
shap.summary_plot(shap_values, X_test)

# Force Plot (개별 예측 이유 시각화 - 첫 번째 샘플 예시)
shap.initjs()
shap.force_plot(explainer.expected_value, shap_values[0,:], X_test.iloc[0,:])

프로젝트 2주차 예정

2주차: 심화 분석 & 패턴 발견

목표: 시장·고객 특성에 따라 의미 있는 패턴 찾기
프로젝트 진행 순서
- 연도별 & 카테고리별(성별, 연령, 교통수단, 목적) 세분화 분석
- 방문객 트렌드와 감성 변화를 동시에 시각화
- 상관분석 & 시계열 트렌드 분석으로 “시기별 감성-방문객 연결고리” 도출
마케팅 전략에 참고할 고객 세그먼트별 특성 인사이트

9. 여행 리뷰로 보는 방문·재방문율 감정 분석

뺩빱 — Tue, 12 Aug 2025 02:16:07 +0900

데이터분석가 부트캠프 수업이
시작된 지 얼마 되지 않은 것 같은데,
벌써 첫 프로젝트에 들어갔다...

주제는 자유였지만,
막상 시작하려니
“무엇을 분석해야 재밌고, 실무에도 연결될까?”라는 고민이 컸다.

그리고 대학원 수업과 병행해야 하다 보니
어쩔 수 없이 조별 없이
나 혼자서 프로젝트를 진행해야 하기 때문에
해야 할 일이 산더미 같다...

그래도 꾸준하게 주제를 탐색한 끝에
여행 관광 리뷰를 통해
외국인 관광객 유치에
도움을 줄 수 있는 주제로 선택하게 됐다.

데이터 생성 → 전처리 → 의도 라벨링 → 감정 점수 부여 → 시각화까지,
짧지만 실무 아이디어로 확장 가능한 과정을 간략하게 정리했다.

아직 프로젝트 초반이라
완성도는 높지는 않지만
초반 틀만 다져보자 하는 마음으로 적어봤다.

데이터 & 전처리

HTML, URL, 공백 제거 → clean_text 생성

import pandas as pd
import re

# 예시 데이터 (실데이터로 교체 가능)
data = [
    {'text': 'I want to visit Korea next year!', 'lang': 'en', 'created_at': '2025-05-10'},
    {'text': 'I will come back again!',         'lang': 'en', 'created_at': '2025-06-15'},
    {'text': '想去韩国旅游',                         'lang': 'zh', 'created_at': '2025-05-20'},
    {'text': '还会去韩国',                           'lang': 'zh', 'created_at': '2025-06-18'},
    {'text': '가보고 싶다',                           'lang': 'ko', 'created_at': '2025-05-25'},
    {'text': '또 가고 싶다',                          'lang': 'ko', 'created_at': '2025-06-10'}
]
df = pd.DataFrame(data)
df['created_at'] = pd.to_datetime(df['created_at'])

# 전처리: 태그/URL/여백 제거
def clean_text(s: str) -> str:
    if s is None: return ""
    s = re.sub(r'<[^>]+>', ' ', s)                         # 태그
    s = re.sub(r'https?://\S+|www\.\S+', ' ', s)           # URL
    s = re.sub(r'\s+', ' ', s).strip()                     # 여백
    return s

df['clean_text'] = df['text'].apply(clean_text)
df.head()

방문/재방문 의도 라벨링

언어별 키워드로 간단히 의도 라벨(visit_intent, revisit_intent)을 붙인다.
실제 프로젝트에선 키워드 사전을 더 늘리거나 ML 분류 모델로 대체 가능하다.

import pandas as pd

# 언어별 키워드 규칙 (예시)
keywords = {
    'en': {'visit': ['visit'],     'revisit': ['come back']},
    'zh': {'visit': ['想去'],        'revisit': ['还会去']},
    'ko': {'visit': ['가보고 싶다'], 'revisit': ['또 가고 싶다']}
}

def intent_label(row):
    lang = row['lang']; t = row['clean_text']
    visit   = any(term in t for term in keywords.get(lang, {}).get('visit', []))
    revisit = any(term in t for term in keywords.get(lang, {}).get('revisit', []))
    return pd.Series({'visit_intent': int(visit), 'revisit_intent': int(revisit)})

df = pd.concat([df, df.apply(intent_label, axis=1)], axis=1)
df[['text','lang','visit_intent','revisit_intent']]

감성 점수(예시)

간단히 샘플 점수를 부여해서 흐름을 보는 용도이다.
실제론 KoNLPy/transformers 등으로 감성 모델 적용 가능하다.

import numpy as np

np.random.seed(42)                # 재현성
df['sentiment'] = np.random.rand(len(df))  # 0~1 사이 임의 점수
df[['clean_text','sentiment']]

언어별 방문/재방문 의도

어떤 언어권(=국가/시장)에서 재방문 의도가 높은지 한눈에 확인 → 충성 고객 관리/CRM 타깃 실마리가 된다.

import matplotlib.pyplot as plt

intent_counts = df.groupby('lang')[['visit_intent', 'revisit_intent']].sum()

plt.figure(figsize=(6,4))
intent_counts.plot(kind='bar', figsize=(6,4))
plt.title('Visit vs Revisit Intent by Language')
plt.ylabel('Count'); plt.xticks(rotation=0)
plt.tight_layout()
plt.show()  # 저장하려면 plt.savefig('intent_by_language.png')

날짜별 평균 감성 점수

기간별 분위기를 파악 → 캠페인 전/후 비교, 이슈 시점 탐지에 유용하다.

sentiment_trend = df.groupby('created_at')['sentiment'].mean()

plt.figure(figsize=(6,4))
sentiment_trend.plot(marker='o')
plt.title('Average Sentiment Score Over Time')
plt.ylabel('Sentiment Score'); plt.ylim(0,1); plt.grid(True)
plt.tight_layout()
plt.show()  # 저장하려면 plt.savefig('sentiment_trend.png')

오늘 프로젝트 분석 초반 결과를 보니까,
언어별로 여행에 대한 생각이 정말 달랐다는 것을 예측 가능했다.

방문 의도가 높은 언어권은
아직 안 와봤지만 관심이 한껏 있는 사람들이라,
이쪽은 아예 타겟을 딱 정해서
인지도 올리는 캠페인을 하면 좋겠다는 생각이 들었다.

예를 들어, 현지 인플루언서랑 협업해서
콘텐츠를 만든다든지,
그 나라 말로 된 랜딩 페이지를
깔끔하게 만들어서 보여주면 효과가 있을 것 같다.

반대로 재방문 의도가 높은 언어권은
이미 한 번 와봤는데 또 오고 싶어 하는 경우다.

여기는 그냥 찐팬들이라고 보면 되겠다.

이 사람들한테는
재방문 고객 전용 혜택을 주거나,

왜 다시 오고 싶은지 그 이유를 스토리로
만들어서 보여주는 게 좋겠다.

감성 점수도 꽤 흥미로웠다.

특정 시기에 점수가 뚝 떨어진다면,
그 시기에 서비스나 경험에 문제가
있었을 가능성이 높다.

그때 무슨 일이 있었는지 파악하고,
전략을 조금만 손보면 상황이 훨씬 좋아질 거다.

그리고 자주 쓰이는 긍정적인 표현이나 후기 문구를
광고 문구에 그대로 녹여서 현지 언어로 쓰면,
메시지가 훨씬 더 와닿고 반응률도 올라갈 거라고 생각한다.

프로젝트를 완성하기 위해서 아직도 해야 할 게 많지만
우선 차근 차근 계획부터 세워보기로...

SQLD 자격증 시험도 며칠 안 남았으니까
아 시험부터 우선 해야겠다...ㅜㅜ

지난주에 ADsP 시험 봤었는데
9월 결과에 SQLD 자격증 둘 다 합격이었으면 좋겠다(제발)

8. 콘텐츠 추천부터 리뷰 분석까지, 마케터의 딥러닝 실습 노트

뺩빱 — Tue, 5 Aug 2025 22:26:44 +0900

최근 수업에서 딥러닝 실험을 몇 가지 해봤다.

마케터 입장에서는 아직 좀 생소하고 어려운 기술일 수 있지만,
나중엔 분명 실무에 도움 될 것 같아서 흐름을 정리해 두기로 했다.

넷플릭스 추천 시스템을 구현해보고,
네이버 영화 리뷰 데이터를 가지고
감성 분석 실험도 진행했다.

그리고 이걸 활용하면 마케터가 할 수 있는 일들이
생각보다 꽤 많다는 걸 알게 됐다.

고객 리뷰 자동 분석 → 쇼핑몰 리뷰, 앱 리뷰, 별점 코멘트 등 긍/부정 실시간 분류
SNS 여론 모니터링 → 트위터/인스타에서 브랜드 키워드 감성 추이 분석
콘텐츠 평가 자동화 → 유튜브 댓글, 영화 리뷰 등 정성 피드백을 수치화
추천 알고리즘 → 브랜드의 블로그, 제품, 뉴스레터에도 적용

예를 들어,
고객이 남긴 리뷰나 별점 코멘트를 자동으로
긍정/부정으로 분류할 수 있다면,
리뷰가 많은 상품도 일일이 수동으로 확인하지 않고
품질 이슈를 자동으로 파악할 수 있다.

또한 브랜드 키워드가 포함된 게시글을 크롤링하거나,
캠페인 론칭 전후의 감정 변화를
비교·분석하는 것도 가능하다.

[브랜드 캠페인 전후 감정 비율 변화 분석 예시]

유사 콘텐츠를 자동으로 추천해
“이 글을 본 사용자가 좋아한 콘텐츠” 형태로 제공하거나,

장르 및 키워드 기반의 콘텐츠 큐레이션,
뉴스레터 구독자에게
맞춤형 콘텐츠를 전달할 수도 있다.

물론 마케터가 모델을 직접 설계하거나
파이썬 코드를 전부 짤 필요는 없다.

하지만 중요한 건,
어떤 데이터를 어떻게 수집하고,
고객 여정의 어느 지점에 감정 분석을 적용하며,
추천 시스템을 어떤 채널에 녹여낼지를
설계하는 일이라고 생각한다.

그래서 이번에 배운 정보들은
마케팅 기획에 도움이 되는
도구가 될 거라고 생각한다.

01. 콘텐츠 추천 시스템

넷플릭스를 보다 보면
비슷한 분위기의 콘텐츠를 계속해서 추천받곤 한다.

한편으로는 늘 궁금했다.

어떻게 이렇게 관련 있는
콘텐츠를 잘 골라내는 걸까?
그 기준은 뭘까?

그래서 수업에서
넷플릭스 콘텐츠 데이터를 활용해
사용자가 본 콘텐츠와 유사한 작품을
자동으로 추천해 주는 시스템을 구현해보고 알게 되었다.

데이터에는 콘텐츠의 제목, 설명, 장르 정보가 담겨 있었고,
이걸 바탕으로 유사도를 계산해서
‘비슷한 콘텐츠’를 추천해주는 구조다.

예를 들어,
“Black Panther”를 기준으로
추천된 작품은 다음과 같다:

Men in Black
Black Lightning
Illang: The Wolf Brigade

설명에 자주 등장하는 단어,
장르의 유사성, 제목 간의 의미 등
여러 기준을 종합해 유사도를 측정했다.

마케터 입장에서 보면,
이런 추천 시스템은
단지 영상 플랫폼에만 필요한 게 아니다.

쇼핑몰에서 비슷한 상품을 추천하거나
뉴스레터에서 관심 있을 만한 콘텐츠를 보여주거나
브랜드 블로그 글을 자동 큐레이션하는 등

여러 채널에서
사용자 맞춤 콘텐츠 경험을 설계할 수 있다.

# 제목, 설명, 장르를 합쳐서 콘텐츠 요약 만들기
df['combined'] = df['title'] + " " + df['description'] + " " + df['listed_in']

# 벡터화: TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf.fit_transform(df['combined'])

# 코사인 유사도 계산
from sklearn.metrics.pairwise import cosine_similarity
cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)

이렇게 유사도를 계산해 두면,
어떤 콘텐츠를 기준으로
비슷한 콘텐츠를 찾아주는 것도 가능하다.

# 콘텐츠 추천 함수
def get_recommendations(title, cosine_sim=cosine_sim):
    idx = df[df['title'] == title].index[0]
    sim_scores = list(enumerate(cosine_sim[idx]))
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
    sim_scores = sim_scores[1:6]
    content_indices = [i[0] for i in sim_scores]
    return df['title'].iloc[content_indices]

“Black Panther”를 기준으로 실행해 보면
비슷한 분위기의 콘텐츠들이 자동으로 추천된다.

get_recommendations("Black Panther")

넷플릭스 콘텐츠는
어떤 장르가 많은지도 확인해 봤다.

전체 콘텐츠 분포를 보면
Action, Drama, Comedy 순으로 많았다.

02. 감정분석 실험

영화 보고 나서 리뷰를 남길 때가 있다.

어떤 영화는 재미있었고,
어떤 영화는 별로였고.

그걸 말로 쓰다 보면,
감정이 묻어나게 된다.

그런데 문장을 보기만 해도
이게 긍정인지,
부정인지 예측할 수 있을까?

평소에 궁금했지만
수업에서 네이버 영화 리뷰 데이터를 기반으로
감성 분석 모델을 만들 기회가 생겨서 실험해 봤다.

데이터 & 전처리

네이버 영화 리뷰 데이터는
긍정/부정 라벨이 붙은 약 15만 개의 텍스트로 구성돼 있다.

먼저, 텍스트를 정제하고
형태소 단위로 쪼갠 뒤
불필요한 단어들을 제거했다.

# 특수문자 제거
train['document'] = train['document'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]", "")
train.dropna(inplace=True)

# 형태소 분석
from konlpy.tag import Okt
okt = Okt()
def tokenize(text):
    return [w for w in okt.morphs(text) if w not in stop_words]

모델구조

텍스트 데이터를 숫자 형태로 바꾸고,
RNN 구조의 딥러닝 모델에 입력했다.

# PyTorch 기반 RNN 감성 분석 모델
class SentimentLSTM(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim, output_dim):
        super().__init__()
        self.embedding = nn.Embedding(vocab_size, embedding_dim)
        self.lstm = nn.LSTM(embedding_dim, hidden_dim, batch_first=True)
        self.fc = nn.Linear(hidden_dim, output_dim)

    def forward(self, x):
        embedded = self.embedding(x)
        _, (hidden, _) = self.lstm(embedded)
        output = self.fc(hidden[-1])
        return output

학습 결과

총 5번의 에폭(epoch)을 돌렸고,
학습 정확도와 검증 정확도를 확인했다.

학습 정확도는 78.7% → 92.6%
검증 정확도는 84.0% → 85.0%

즉, 훈련은 잘 되었고
과적합 없이 안정적인 모델이 나왔다.

자주 등장한 감성 키워드

긍정/부정 리뷰에서
자주 등장한 단어들을 시각화해 봤다.

자주 등장하는 긍정/부정 키워드를 시각화해 보면
어떤 감정 단어들이 리뷰에 자주 쓰이는지 보인다.

긍정/부정 비율 분포

전체 리뷰 중 어떤 감정이 더 많았는지도 분석했다.

쇼핑몰, 앱 리뷰, 별점 코멘트를 긍/부정으로 분류해서
이슈 제품을 자동으로 감지할 수 있다.

이렇게 전체 리뷰 중 감정의 비중을 분석해
이슈 대응에 활용할 수 있다.

마케터 입장에서는
고객 감정을 빠르게 감지하고,
그에 맞는 대응 전략을 세울 수 있는 도구로
쓰일 수 있다고 느꼈다.

이번 실험을 하면서 계속 생각이 들었다.
이걸 마케터가 다 알아야 하나?

모델 구조를 설계하고,
파이썬 코드로 데이터 전처리하고,

신경망을 학습시키는 일은
분명 개발자나 데이터 분석가의 영역에 가깝다.

그렇다고 마케터는
이걸 전혀 몰라도 되는 걸까?

그건 또 아니다.

중요한 건
어디에, 왜, 어떻게 쓸 것인가를
판단할 수 있어야 한다.

감정 분석을 고객 여정의 어느 시점에 넣을지,
리뷰를 자동 분석해서 어떤 제품의 품질 문제를 먼저 감지할지,
콘텐츠 추천 시스템을 어떤 채널에 적용해 볼지.

이런 걸 기획하고 제안할 수 있는 사람이
바로 마케터다.

기술을 직접 만들 필요는 없지만,
기술이 할 수 있는 일을 이해하고,
그걸 실무에 녹여내는 시나리오를 그릴 수 있어야 한다.

7. SEO 콘텐츠 제작, 뉴스 기사로 키워드 뽑기

뺩빱 — Fri, 25 Jul 2025 17:45:45 +0900

그동안 콘텐츠 마케팅 업무를 하며
고객사들의 수많은 콘텐츠를 기획하고 실행해 왔다.

특히 SEO 기반 콘텐츠는 절대 빠질 수가 없었다.

하지만 콘텐츠를 작성할 때면 늘 같은 패턴이었다.
키워드 리서치하고, 연관 검색어를 정리한 뒤,
나의 감대로 콘텐츠 구조와 플랜을 짠다.

물론 실무 경험과 트렌드 감각은 날마다 쌓이면서 손은 점점 빨라졌지만
언제부턴가 나는 "이 키워드가 정말 타깃이 원하고 효과가 있을까? 근거가 뭘까?
콘텐츠가 검색엔진에 읽히는 게 증명이 어떻게 되지? 단지 조회수로?"라는 질문들이 남았다.

그러다 이번 데이터 분석 과정을 통해
실제 뉴스 데이터를 기반으로
TF-IDF, Word2Vec, LDA 기법들을 활용해서
콘텐츠 기획에 바로 적용 가능한 SEO 키워드를 발굴하는 과정을 경험했다.

그동안 막연한 의문들이 구체적인 방식으로 해결되는 과정이었고
향후 실무에 적용하기 위해서 과정을 정리해 두었다.

데이터 : 2025.04~2025.07 약 3개월간 뉴스 기사 https://www.bigkinds.or.kr/

NewsResult_20250424-20250724.csv

11.66MB

1단계 : 데이터 정제

제목 + 본문 결합 → 텍스트 컬럼 생성
Okt로 명사 추출 → 불용어 제거
토큰화 완료 후 벡터화 기반 준비

import pandas as pd

try:
    df = pd.read_csv('NewsResult_20250424-20250724.csv')
except FileNotFoundError:
    print("Error: 'your_data.csv' not found. Please replace with the correct file path.")

    data = {'제목': ['Example Title 1', 'Example Title 2'],
            '본문': ['Example Body 1', 'Example Body 2']}
    df = pd.DataFrame(data)

display(df.head())

# 분석 대상 텍스트 필드: 제목 + 본문 결합
df['텍스트'] = df['제목'].fillna('') + ' ' + df['본문'].fillna('')

텍스트 전처리

!pip install konlpy

from konlpy.tag import Okt

okt = Okt()

stopwords = ['있다', '하다', '되다', '으로', '에서', '이다', '를', '에', '및', '로']

def preprocess_text(text):
    if pd.isna(text):
        return []
    tokens = okt.nouns(text)  # 명사만 추출
    tokens = [token for token in tokens if token not in stopwords and len(token) > 1]
    return tokens

df['텍스트'] = df['제목'].fillna('') + ' ' + df['본문'].fillna('')

# 전처리 적용
df['토큰'] = df['텍스트'].apply(preprocess_text)

display(df.head())

# NaN 제거
print("Number of rows with NaN in '텍스트' column before dropping:", df['텍스트'].isna().sum())

df.dropna(subset=['텍스트'], inplace=True)

print("Number of rows with NaN in '텍스트' column after dropping:", df['텍스트'].isna().sum())

display(df.head())

2단계 : 문서를 수치화

BoW, TF-IDF 방식으로 문서 벡터화
TF-IDF 상위 단어 분석 결과

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

# 전처리된 토큰을 문자열로 변환
df['토큰_문자열'] = df['토큰'].apply(lambda x: ' '.join(x))

# BoW 벡터화
bow_vectorizer = CountVectorizer()
X_bow = bow_vectorizer.fit_transform(df['토큰_문자열'])

# TF-IDF 벡터화
tfidf_vectorizer = TfidfVectorizer()
X_tfidf = tfidf_vectorizer.fit_transform(df['토큰_문자열'])

print("BoW 벡터 shape:", X_bow.shape)
print("TF-IDF 벡터 shape:", X_tfidf.shape)

-> BoW 벡터 shape: (3744, 7200)
-> TF-IDF 벡터 shape: (3744, 7200)

import numpy as np
import pandas as pd

# TF-IDF 벡터에서 상위 단어 추출 (첫 번째 문서 기준)
tfidf_feature_names = tfidf_vectorizer.get_feature_names_out()
first_doc_vector = X_tfidf[0].toarray().flatten()

# 상위 TF-IDF 단어 20개 추출
top_indices = first_doc_vector.argsort()[::-1][:20]
top_tfidf_words = [(tfidf_feature_names[i], first_doc_vector[i]) for i in top_indices]

# 결과 DataFrame으로 정리
top_words_df = pd.DataFrame(top_tfidf_words, columns=["단어", "TF-IDF 점수"])

display(top_words_df)

→ 이로써 뉴스에서 반복적으로 등장하며
SEO 키워드 후보가 될 수 있는 상위 키워드들이 뽑힘.

3단계 : 문서 유사도 분석 & 추천 시스템

TF-IDF + 코사인 유사도 사용
뉴스 문서 간의 의미 유사도를 수치로 정량화
특정 문서 기준 가장 유사한 뉴스 5건 추천 기능

→ 향후 비슷한 콘텐츠 추천 알고리즘에도 응용가능

from sklearn.metrics.pairwise import cosine_similarity

# 문서 0번과 전체 문서 간 코사인 유사도 계산
similarities = cosine_similarity(X_tfidf[0], X_tfidf).flatten()

# 자기 자신 제외한 상위 5개 유사 문서 인덱스 추출
similar_docs_idx = similarities.argsort()[::-1][1:6]

# 유사도 점수 추출
similar_docs_score = similarities[similar_docs_idx]

# 유사 문서 정보 정리
similar_docs = df.loc[similar_docs_idx, ['제목', '언론사', '일자']]
similar_docs['유사도 점수'] = similar_docs_score

4단계 : 클러스터링(KMeans)으로 문서 분류

뉴스 문서들을 5개 군집으로 자동 분류
각 클러스터별 대표 뉴스 기사 확인

from sklearn.cluster import KMeans
from sklearn.metrics.pairwise import euclidean_distances

# 클러스터 수 설정 (임의로 5개)
k = 5
kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)

# TF-IDF 벡터로 군집화 수행
df['cluster'] = kmeans.fit_predict(X_tfidf)

# 각 클러스터 중심과 가장 가까운 문서 찾기 (대표 뉴스)
centers = kmeans.cluster_centers_
closest_docs = []

for i in range(k):
    # i번 클러스터에 속한 문서 인덱스
    cluster_indices = df[df['cluster'] == i].index
    cluster_vectors = X_tfidf[cluster_indices]

    # 중심 벡터와의 거리 계산
    center_vec = centers[i].reshape(1, -1)
    distances = euclidean_distances(cluster_vectors, center_vec).flatten()

    # 중심에 가장 가까운 문서 인덱스 추출
    closest_idx = cluster_indices[distances.argmin()]
    closest_docs.append(closest_idx)

# 대표 뉴스 출력
representative_df = df.loc[closest_docs, ['cluster', '제목', '언론사', '일자']]
print(representative_df)

→ 콘텐츠 주제를 자동으로 클러스터링 하면
시리즈 기획 구조를 설계하기 유용함.

5단계 : LDA 토픽 모델링으로 숨어 있는 주제 발견

뉴스 데이터를 5개의 주제로 분해
토픽별 주요 단어 결과 도출

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
import pandas as pd

# CountVectorizer로 단어 빈도 행렬 생성
count_vectorizer = CountVectorizer(max_df=0.9, min_df=5, stop_words='english')
X_bow_for_lda = count_vectorizer.fit_transform(df['토큰_문자열'])

# LDA 토픽 모델 학습 (k=5개 주제 가정)
lda_model = LatentDirichletAllocation(n_components=5, random_state=42)
lda_model.fit(X_bow_for_lda)

# 각 토픽별 대표 단어 추출
n_top_words = 10
feature_names = count_vectorizer.get_feature_names_out()

topic_keywords = []
for topic_idx, topic in enumerate(lda_model.components_):
    top_features_ind = topic.argsort()[:-n_top_words - 1:-1]
    top_words = [feature_names[i] for i in top_features_ind]
    topic_keywords.append((f"Topic {topic_idx}", top_words))

topic_df = pd.DataFrame(topic_keywords, columns=["토픽 번호", "대표 키워드"])
print(topic_df)

→ 콘텐츠 구조를 만드는 틀로 활용 가능

6단계 : Word2Vec으로 단어 임베딩

단어 벡터 학습 → 의미적으로 가까운 단어 도출
"비트코인"의 유사 단어 Top 10

!pip install gensim

from gensim.models import Word2Vec
import pandas as pd
from konlpy.tag import Okt

try:
    df = pd.read_csv('NewsResult_20250424-20250724.csv')
except FileNotFoundError:
    print("Error: 'NewsResult_20250424-20250724.csv' not found. Please replace with the correct file path.")

    data = {'제목': ['Example Title 1', 'Example Title 2'],
            '본문': ['Example Body 1', 'Example Body 2']}
    df = pd.DataFrame(data)


df['텍스트'] = df['제목'].fillna('') + ' ' + df['본문'].fillna('')

okt = Okt()

stopwords = ['있다', '하다', '되다', '으로', '에서', '이다', '를', '에', '및', '로']

def preprocess_text(text):

    if pd.isna(text):
        return []
    tokens = okt.nouns(text)  # 명사만 추출
    tokens = [token for token in tokens if token not in stopwords and len(token) > 1]
    return tokens


df['토큰'] = df['텍스트'].apply(preprocess_text)

# 전처리된 토큰 리스트를 기반으로 Word2Vec 모델 학습
sentences = df['토큰'].tolist()

# Word2Vec 모델 학습 (window: 문맥 크기, vector_size: 임베딩 차원 수)
w2v_model = Word2Vec(sentences=sentences, vector_size=100, window=5, min_count=2, sg=1, workers=4, seed=42)

# 예시 단어로 유사 단어 Top 10 출력
similar_words = w2v_model.wv.most_similar("비트코인", topn=10)

for word, score in similar_words:
    print(f"{word}: {score:.4f}")

→ 의미가 통하는 키워드 확장 가능
SEO 키워드 믹스 설계 시 유용

7단계 : 시각화하기, 워드클라우드 & 클러스터별 뉴스 분포

상위 키워드 시각화 → 인사이트 도출하기
클러스터별 기사 수 시각화 → 콘텐츠 비중 판단

# 폰트설치
!sudo apt-get update -qq
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm -rf ~/.cache/matplotlib

# 한글 제목 깨짐 해결하기
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

font_path = '/usr/share/fonts/truetype/nanum/NanumGothic.ttf'
font_name = fm.FontProperties(fname=font_path).get_name()
plt.rc('font', family=font_name)

plt.rcParams['axes.unicode_minus'] = False

print(f"Matplotlib font set to: {plt.rcParams['font.family']}")

7-1 워드클라우드로 주요 단어 한눈에 보기

from collections import Counter
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import pandas as pd
from konlpy.tag import Okt
try:
    df = pd.read_csv('NewsResult_20250424-20250724.csv')
except FileNotFoundError:
    print("Error: 'NewsResult_20250424-20250724.csv' not found. Please replace with the correct file path.")
    data = {'제목': ['Example Title 1', 'Example Title 2'],
            '본문': ['Example Body 1', 'Example Body 2']}
    df = pd.DataFrame(data)

df['텍스트'] = df['제목'].fillna('') + ' ' + df['본문'].fillna('')

okt = Okt()

stopwords = ['있다', '하다', '되다', '으로', '에서', '이다', '를', '에', '및', '로']

def preprocess_text(text):
    if pd.isna(text):
        return []
    tokens = okt.nouns(text)  # 명사만 추출
    tokens = [token for token in tokens if token not in stopwords and len(token) > 1]
    return tokens

df['토큰'] = df['텍스트'].apply(preprocess_text)

# 전체 뉴스 토큰 리스트 평탄화
all_tokens = [token for tokens in df['토큰'] for token in tokens]
word_freq = Counter(all_tokens)

# 워드클라우드 생성
font_path = '/usr/share/fonts/truetype/nanum/NanumGothic.ttf'

wordcloud = WordCloud(font_path=font_path,
                      background_color='white', width=800, height=400).generate_from_frequencies(word_freq)

# 시각화
plt.figure(figsize=(12, 6))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title("뉴스 전체 주요 단어 워드클라우드", fontsize=16)
plt.show()

7-2 그래프로 분석 결과 표현하기

import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

try:
    df
except NameError:
    print("DataFrame 'df' not found. Please run the preceding cells to load and preprocess data.")

    try:
        df = pd.read_csv('NewsResult_20250424-20250724.csv')
    except FileNotFoundError:
        print("Error: 'NewsResult_20250424-20250724.csv' not found. Please replace with the correct file path.")
        data = {'제목': ['Example Title 1', 'Example Title 2'],
                '본문': ['Example Body 1', 'Example Body 2']}
        df = pd.DataFrame(data)

    df['텍스트'] = df['제목'].fillna('') + ' ' + df['본문'].fillna('')

    try:
        okt
        preprocess_text
    except NameError:
        from konlpy.tag import Okt
        okt = Okt()
        stopwords = ['있다', '하다', '되다', '으로', '에서', '이다', '를', '에', '및', '로']
        def preprocess_text(text):
            if pd.isna(text):
                return []
            tokens = okt.nouns(text)
            tokens = [token for token in tokens if token not in stopwords and len(token) > 1]
            return tokens


    df['토큰'] = df['텍스트'].apply(preprocess_text)
    df['토큰_문자열'] = df['토큰'].apply(lambda x: ' '.join(x))
try:
    X_tfidf
except NameError:
    print("TF-IDF matrix 'X_tfidf' not found. Generating now.")
    tfidf_vectorizer = TfidfVectorizer()
    X_tfidf = tfidf_vectorizer.fit_transform(df['토큰_문자열'])

k = 5 # 클러스터 수 설정 (임의로 5개)
kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)

# TF-IDF 벡터로 군집화 수행
df['cluster'] = kmeans.fit_predict(X_tfidf)

# 클러스터별 뉴스 개수 시각화
try:
    plt.rc('font', family=plt.rcParams['font.family'][0])
except (KeyError, IndexError):

    try:
        font_path = '/usr/share/fonts/truetype/nanum/NanumGothic.ttf'
        font_name = fm.FontProperties(fname=font_path).get_name()
        plt.rc('font', family=font_name)
        print("Matplotlib font set to NanumGothic for plot title.")
    except Exception:
        print("Could not set NanumGothic font. Plot title might show broken characters.")

plt.figure(figsize=(8, 4))
sns.countplot(x='cluster', data=df, palette='Blues')
plt.title("클러스터별 뉴스 기사 개수", fontsize=14)
plt.xlabel("클러스터")
plt.ylabel("기사 수")
plt.show()

이번 실험을 통해 느낀건
데이터는 나의 콘텐츠 기획 능력을 더욱 신뢰 있게 해준다.

이제 더 이상 단순 검색량으로만 키워드를 고르지 않을 것이다.

뉴스라는 실시간 텍스트 데이터를 직접 분석해보니,
콘텐츠 기획의 방향이 한 층 더 명확해졌다.

다음에는 뉴스외에도 블로그나 리뷰 데이터를 통해 검색 의도 흐름을 분석해 봐야겠다.