대량 생산된 AI 생성 콘텐츠의 확산으로 인해 Google는 스팸을 식별하는 데 어려움을 겪고 있습니다.
AI 생성 콘텐츠의 존재로 인해 Google의 콘텐츠 품질 평가도 복잡해졌습니다.
그럼에도 불구하고 Google가 저품질 AI 생성 콘텐츠를 자동으로 감지하는 기능을 향상시키고 있다는 징후가 있습니다.
인터넷에 널리 퍼져 있는 스팸성 AI 콘텐츠
생성적인 AI 콘텐츠가 지난 1년 동안 Google 검색 결과에 침투했다는 것을 인식하기 위해 SEO에 대한 전문 지식이 필요하지 않습니다.
이 기간 동안 AI가 제작한 콘텐츠에 대한 Google의 입장은 진화했습니다. 가이드라인을 위반한 스팸으로 간주하는 것에서 콘텐츠 제작 방식보다 콘텐츠 품질을 우선시하는 것으로 공식적인 입장이 바뀌었습니다.
나는 품질에 대한 Google의 강조가 AI 생성 콘텐츠 전략을 옹호하는 수많은 내부 SEO 프레젠테이션에 통합되었다고 확신합니다. 의심할 바 없이 Google의 이러한 접근 방식은 다양한 조직의 경영진으로부터 승인을 확보할 만큼 충분한 여유를 제공했습니다.
결과: AI로 생성된 수준 이하의 콘텐츠가 웹에 넘쳐나고 일부는 처음에 회사 검색 결과에 표시됩니다.
숨겨진 저품질 콘텐츠
"보이는 웹"은 검색 엔진이 색인을 생성하고 검색 결과에 표시하기로 선택한 인터넷의 일부만을 나타냅니다.
Google의 Pandu Nayak에 따르면 Google 반독점 재판 중 증언에서 밝혀진 바와 같이 Google는 크롤링 중에 수조 개의 문서가 발견되었음에도 불구하고 약 4,000억 개의 문서 색인을 유지합니다.
이는 Google가 웹 크롤링 중에 발견한 문서 중 4%(10조 개 중 4,000억 개)만을 색인화한다는 것을 의미합니다.
Google는 99%의 쿼리 클릭에서 스팸을 필터링한다고 주장하며, 이는 가치 없는 콘텐츠의 대부분을 이미 제거했음을 시사합니다.
콘텐츠의 지배와 알고리즘의 권위
많은 SEO와 노련한 웹사이트 관리자가 대조적인 견해를 갖고 있음에도 불구하고 Google는 콘텐츠 품질을 평가하는 능력을 유지합니다. 수많은 사례에서는 열등한 콘텐츠가 우수한 콘텐츠보다 순위가 높은 사례를 보여줍니다.
콘텐츠에 투자하는 평판이 좋은 회사는 웹에서 최고 품질의 콘텐츠 수준에 속할 가능성이 높습니다. 경쟁사도 비슷한 위치를 차지할 가능성이 높습니다. Google는 이미 수많은 하위 후보를 색인에서 제외했습니다.
Google는 그 성과에 자부심을 갖고 있습니다. 96% 문서가 색인에 포함되지 않은 경우 일부 문제는 사람에게는 분명하지만 기계로는 식별하기 어렵습니다.
나는 Google가 어떤 것을 인식하는 데 탁월하다는 결론으로 이어지는 사례를 관찰했습니다. 페이지 기술적인 관점에서 '좋은' 것과 '나쁜' 것 사이를 구별하는 데 어려움을 겪고 있습니다. 좋은 내용 그리고 훌륭한 콘텐츠.
Google는 DOJ의 독점 금지 전시회에 제시된 문서에서도 이를 인정했습니다. 2016년 발표에서는 “우리는 문서를 이해하지 못한다. 우리는 그것을 시뮬레이션합니다.”
Eric Lehman이 종합한 검색 전체 프레젠테이션의 슬라이드
콘텐츠 품질 평가를 위해 SERP 사용자 상호 작용에 의존하는 Google
Google는 전통적으로 검색 엔진 결과 페이지(SERP)와의 사용자 상호 작용에 의존하여 문서 콘텐츠의 품질을 측정했습니다. 후속 Google 프레젠테이션에서는 다음과 같이 설명했습니다. "각 검색자는 과거 사용자의 응답으로부터 이익을 얻고... 미래 사용자에게 이익이 되는 응답에 기여합니다."
Lehman이 편집한 Search All Hands 프레젠테이션의 슬라이드
콘텐츠 품질을 결정하기 위해 Google의 상호 작용 데이터 사용에 대한 논쟁이 지속되었습니다. Google는 주로 웹사이트가 아닌 SERP의 상호 작용을 사용하여 콘텐츠 품질에 관한 결정을 내리고 이탈률과 같은 사이트 기반 지표를 제거한다고 믿습니다.
지식이 풍부한 소스에 세심한 주의를 기울이면 Google는 콘텐츠 순위에 클릭 데이터를 사용하는 것에 대해 매우 투명했습니다.
2016년에 Google 엔지니어 Paul Haahr는 SMX West에서 "Google 작동 방식: Google 순위 엔지니어의 이야기"라는 제목의 프레젠테이션을 진행했습니다. Haahr는 Google의 SERP와 검색 엔진이 클릭 패턴의 변화를 면밀히 조사하는 방법에 대해 논의했습니다. 그는 이 사용자 데이터가 "예상보다 이해하기가 더 복잡하다"는 점을 인정했습니다.
Haahr의 진술은 DOJ 전시회에 포함된 "연구 순위" 프리젠테이션 슬라이드에 통합되어 있습니다.
DOJ 전시회의 "연구 순위" 슬라이드
사용자 데이터를 해석하고 이를 실행 가능한 통찰력으로 변환하는 Google의 능력은 변경 변수와 해당 결과 간의 인과 관계를 식별하는 데 달려 있습니다.
SERP는 일반적인 변수를 이해하기 위한 Google의 기본 도메인을 나타냅니다. 웹사이트에서의 상호 작용은 Google의 범위를 넘어서는 다양한 변수를 도입합니다.
Google가 웹 사이트에서의 상호 작용을 식별하고 정량화할 수 있다고 하더라도(컨텐츠 품질을 평가하는 것보다 더 어려울 수 있음), 이는 의미 있는 추론을 위해 최소 트래픽 임계값이 필요한 각각의 고유한 변수 세트의 산사태로 이어질 것입니다.
Google는 문서에서 SERP와 관련하여 "UX 복잡성이 증가함에 따라 피드백을 정확한 가치 판단으로 변환하는 것이 점차 어려워지고 있다"고 지적합니다.
브랜드와 가상의 수렁
Google는 SERP와 사용자 간의 상호 작용이 문서 이해력을 "시뮬레이트"하는 능력 뒤에 있는 "핵심 미스터리"를 형성한다고 주장합니다.
"로깅 및 순위" DOJ 전시회의 슬라이드
DOJ 전시회에서 제공하는 통찰력 외에도 Google가 순위에서 사용자 상호 작용을 사용하는 방법에 대한 단서는 특허 내에서 찾을 수 있습니다.
특히 흥미로운 측면 중 하나는 다음과 같은 관계를 조사하는 "사이트 품질 점수"입니다.
- 검색자가 검색어에 브랜드/탐색 용어를 포함하거나 웹사이트에서 해당 용어를 앵커에 포함하는 경우. 예를 들어 'seo news' 대신 'seo news searchengineland'에 대한 검색어 또는 링크 앵커입니다.
- 사용자가 SERP에서 특정 결과를 선택하려는 경향이 있는 경우.
이러한 표시기는 해당 사이트가 검색어에 대해 매우 관련성이 높은 응답임을 나타낼 수 있습니다. 이러한 품질 평가 방법은 "브랜드가 솔루션을 제공한다"는 Eric Schmidt의 주장과 일치합니다.
이러한 근거는 브랜드에 대한 사용자의 강한 편견을 보여주는 연구와 일치합니다.
예를 들어 Red C 설문 조사에 따르면 파티 드레스 쇼핑이나 크루즈 휴가 계획과 같은 작업에서 참가자 중 82%는 SERP 순위에 관계없이 친숙한 브랜드를 선택했습니다.
브랜드와 브랜드가 생성하는 관련 회상은 확립하는 데 비용이 많이 듭니다. 따라서 Google가 검색 결과 순위를 매길 때 이에 의존하는 것이 논리적입니다.
Google에 따른 AI 스팸 식별
Google는 올해 인공지능이 제작한 콘텐츠에 대한 조언을 발표했습니다. 스팸 규정에서는 "스팸 자동 생성 콘텐츠"를 주로 검색 순위를 조작하기 위해 생성된 콘텐츠로 명시적으로 설명합니다.
Google의 스팸 관련 규정
Google에서는 스팸을 "품질이나 사용자 경험을 고려하지 않고 자동화된 프로세스를 통해 생성된 텍스트"로 정의합니다. 내 해석에 따르면 이는 사람의 품질 보증 프로세스 없이 콘텐츠를 생성하기 위해 AI 시스템을 사용하는 모든 사람을 의미합니다.
AI 시스템이 기밀 또는 개인 데이터에 대해 훈련되는 상황이 있을 수 있습니다. 오류와 부정확성을 줄이기 위해 보다 예측 가능한 결과를 생성하도록 프로그래밍될 수 있습니다. 이것이 사전에 품질 보증이라고 주장할 수도 있습니다. 자주 사용되지 않는 전략일 가능성이 높습니다.
다른 모든 경우는 "스팸"이라고 지칭하겠습니다.
이러한 유형의 스팸을 생성하는 것은 이전에는 데이터 추출, madLibbing용 데이터베이스 구축 또는 PHP를 사용하여 Markov 체인을 활용한 텍스트 생성에 대한 기술 전문 지식을 갖춘 개인으로 제한되었습니다.
ChatGPT는 다음을 지정하는 OpenAI의 느슨하게 시행되는 게시 정책과 함께 몇 가지 프롬프트와 간단한 API를 사용하여 스팸을 민주화했습니다.
“콘텐츠 형성에 AI가 관여한다는 사실은 모든 독자가 쉽게 간과할 수 없는 방식으로 공개적으로 공개되며, 일반 독자라면 충분히 이해할 수 있습니다.”
OpenAI의 출판 정책
인터넷에서 유포되는 AI 생성 콘텐츠의 양은 엄청납니다. Google에서 "regenerate response -chatgpt -results"를 검색하면 "수동으로"(즉, API를 사용하지 않고) 제작된 AI 생성 콘텐츠가 포함된 수만 개의 페이지가 표시됩니다.
많은 경우에 품질 보증이 표준에 미치지 못하여 "작성자"가 복사 및 붙여넣기 작업 중에 이전 버전의 ChatGPT에서 "재생성 응답"을 남겼습니다.
스팸으로 간주되는 AI 콘텐츠에서 관찰된 패턴
GPT-3가 등장했을 때 편집되지 않은 AI에서 생성된 콘텐츠에 Google가 어떻게 반응할지 궁금해서 초기 테스트 웹사이트를 구축했습니다.
일어난 일은 다음과 같습니다.
- 새 도메인을 획득하고 기본 WordPress 설치를 구성했습니다.
- Steam에서 판매되는 상위 10,000개 게임에 관한 정보를 스크랩했습니다.
- 이러한 게임을 AlsoAsked API에 입력하여 해당 게임에 대해 제기된 쿼리를 추출했습니다.
- 이러한 질문에 대한 답변을 작성하기 위해 GPT-3를 활용했습니다.
- 각 질문과 응답에 대해 공식화된 FAQ페이지 스키마입니다.
- 페이지에 삽입하기 위해 게임에 대한 YouTube 동영상의 URL을 검색했습니다.
- WordPress API를 활용하여 각 게임에 대한 페이지를 생성했습니다.
웹사이트에는 광고나 기타 수익 창출 기능이 없었습니다.
전체 프로세스는 몇 시간이 걸렸으며 인기 비디오 게임과 관련된 일부 Q&A 콘텐츠가 포함된 새로운 10,000페이지 규모의 웹사이트를 갖게 되었습니다.
PubCon에서 Lily Ray가 제공한 이 웹사이트에 대한 Google Search Console의 성능 데이터
실험 결과:
- 약 4개월 후 Google가 특정 콘텐츠를 표시하지 않기로 결정하여 25%의 트래픽이 감소했습니다.
- 한 달 후, Google는 웹사이트로의 트래픽 전달을 중단했습니다.
- Bing은 전체 기간 동안 계속해서 트래픽을 참조했습니다.
무엇이 가장 흥미로웠나요? Google는 수동 조치를 취하지 않은 것 같습니다. Google Search Console에는 알림이 없었고, 2단계 트래픽 손실로 인해 수동 간섭이 있는지 의심하게 되었습니다.
나는 순수하게 AI로 생성된 콘텐츠에서 이러한 경향을 자주 관찰했습니다.
- Google에 사이트가 나열됩니다.
- 트래픽은 매주 지속적으로 증가하면서 빠르게 방향을 잡습니다.
- 그런 다음 트래픽이 최고조에 달한 다음 급격히 감소합니다.
또 다른 사례는 Causal.app의 시나리오입니다. 이 "SEO 습격"에서는 경쟁사의 사이트맵이 청소되었으며 AI를 사용하여 1,800개 이상의 기사가 작성되었습니다. 트래픽은 동일한 경로를 따라 몇 달 동안 증가한 후 정체 상태에 이르렀고 약 25%의 하락이 거의 모든 트래픽을 없애는 충돌로 이어졌습니다.
Causal.app에 대한 SISTRIX의 가시성 데이터
SEO 커뮤니티는 상당한 언론 보도로 인해 이러한 하락이 수동 개입의 결과인지 여부를 심의합니다. 나는 알고리즘이 작용했다고 추측합니다.
또 다른 매력적이고 더 흥미로운 연구에는 LinkedIn의 "협력" AI 기사가 포함되어 있습니다. LinkedIn이 작성한 이 AI 생성 기사는 사용자가 사실 확인, 수정 및 보충 자료의 형태로 "협업"하도록 장려했습니다. 가장 활동적인 기여자는 기여에 대한 보상으로 LinkedIn 배지를 받았습니다.
이전 사례와 마찬가지로 트래픽이 급증한 후 가라앉았습니다. 그러나 LinkedIn은 일정 수준의 트래픽을 유지했습니다.
LinkedIn /advice/ 페이지에 대한 SISTRIX의 가시성 데이터
이 데이터는 트래픽 변동이 수동 간섭이 아닌 알고리즘의 산물임을 의미합니다.
사람이 수정한 후 수많은 LinkedIn 공동 기사가 Google에 따른 가치 있는 콘텐츠의 정의와 일치하는 것으로 보입니다. 그러나 다른 사람들은 그렇지 않은 것으로 간주되었습니다.
아마도 이 경우에는 Google의 판단이 정확했을 것입니다.
스팸으로 간주된다면 순위를 매기는 이유는 무엇인가요?
내가 관찰한 바에 따르면 순위는 Google에 대한 다단계 프로세스입니다. 시간, 비용, 데이터 접근성 등의 제약으로 인해 더욱 복잡한 시스템을 구현하는 데 방해가 됩니다.
문서에 대한 지속적인 평가에도 불구하고 Google 시스템이 품질이 낮은 콘텐츠를 식별하기까지 지연이 있는 것으로 생각됩니다. 이는 반복 패턴을 설명합니다. 콘텐츠는 초기 평가를 통과하고 나중에 하위 수준으로 식별됩니다.
이 주장을 뒷받침하는 몇 가지 증거를 살펴보겠습니다. 이 담론의 앞부분에서 Google의 "사이트 품질" 특허와 사용자 상호 작용 데이터를 활용하여 순위 점수를 공식화하는 방법에 대해 간략하게 언급했습니다.
새로 출시된 사이트의 경우 사용자는 SERP의 콘텐츠에 참여하지 않았습니다. 따라서 Google는 콘텐츠의 품질을 평가할 수 없습니다.
사이트 품질 예측과 관련된 또 다른 특허는 이 시나리오를 다룹니다.
다시 한번, 지나치게 단순화된 용어로, 처음에 새 사이트에서 식별된 다양한 문구에 대한 상대 빈도 측정값을 얻음으로써 새로운 사이트에 대한 품질 점수가 예상됩니다.
그런 다음 이러한 측정값은 이전에 평가된 사이트에서 설정된 품질 점수에서 파생된 이전에 설정된 문구 모델을 사용하여 상호 연관됩니다.
현장 품질 예측 특허
Google가 여전히 이 접근 방식을 사용하고 있다면(적어도 어느 정도는 그렇다고 생각합니다), 이는 수많은 새로운 웹사이트가 처음에는 알고리즘에 포함된 품질 평가를 기반으로 순위가 매겨진다는 것을 의미합니다. 이후 사용자 상호작용 데이터를 기반으로 순위가 세분화됩니다.
나와 여러 동료들은 Google가 때때로 예비 평가 단계에서 사이트 순위를 높이는 것을 발견했습니다.
당시 우리의 가설은 사용자 상호 작용이 Google의 예측과 일치하는지 확인하기 위해 평가가 수행되었다는 것이었습니다. 그렇지 않으면 트래픽이 급증하는 만큼 빠르게 줄어들었습니다. 그러나 성능이 좋다면 해당 사이트는 SERP에서 괜찮은 위치를 유지했습니다.
Google의 특허 중 일부는 다음과 같은 솔직한 진술을 포함하여 "암시적 사용자 피드백"을 참조합니다.
"순위 하위 시스템에는 사용자에게 제시되는 최종 순위를 높이기 위해 암시적 사용자 피드백을 활용하여 검색 결과의 재정렬을 트리거하는 순위 수정자 엔진이 포함될 수 있습니다."
AJ Kohn은 2015년에 이러한 유형의 데이터를 광범위하게 자세히 설명했습니다.
이것은 많은 특허 중에서 오래된 특허라는 점에 유의하는 것이 중요합니다. Google는 출판 이후 다음과 같은 수많은 새로운 솔루션을 고안했습니다.
- RankBrain은 Google에 대한 "새로운" 쿼리를 처리하기 위해 명시적으로 언급되었습니다.
- SpamBrain은 웹스팸을 퇴치하기 위한 Google의 기본 도구입니다.
Google: 간격에 주의하세요
Google에 직접적인 엔지니어링 지식이 있는 사람을 제외하고 전체 SERP와 별도로 Google가 개별 사이트에서 얼마나 많은 사용자/SERP 상호 작용 데이터를 활용할지는 외부인에게는 불분명합니다.
그럼에도 불구하고 RankBrain과 같은 최신 시스템은 사용자 클릭 데이터를 기반으로 부분적으로 훈련되는 것으로 알려져 있습니다.
이러한 새로운 시스템에 관한 법무부 증언에 대한 AJ Kohn의 분석에서 특정한 점이 나의 관심을 끌었습니다. 그는 다음과 같이 언급합니다.
“참고 자료는 문서 세트를 '녹색 링'에서 '파란색 링'으로 이동하는 것을 나타냅니다. 이 참고자료는 제가 아직 찾지 못한 문서에 관한 것입니다. 그러나 증언에 따르면 Google가 큰 세트의 결과를 추가 순위 요소가 적용될 수 있는 더 작은 세트로 필터링하는 방법을 보여주는 것으로 보입니다."
이것은 내 이론과 일치합니다. 웹사이트가 테스트를 통과하면 정확성을 높이기 위한 고급 처리를 위해 다른 "링"으로 전환됩니다.
현재로서는:
- Google의 기존 순위 시스템은 AI에서 생성된 콘텐츠 제작 및 게시 속도를 맞추는 데 어려움을 겪고 있습니다.
- Gen-AI 시스템은 문법적으로 정확하고 대부분 일관된 콘텐츠를 생성하여 추가 평가가 수행될 때까지 Google의 초기 테스트 및 순위를 통과합니다.
여기에 문제가 있습니다. 생성적 AI를 사용한 지속적인 콘텐츠 생성은 Google의 초기 평가를 기다리는 사이트의 끝없는 대기열이 있음을 의미합니다.
HCU는 UGC를 통한 GPT에 대한 솔루션인가요?
나는 Google가 이것을 그들이 극복해야 할 중요한 과제로 인식하고 있다고 생각합니다. 추측에 따르면, 이 취약점을 해결하기 위해 유용한 콘텐츠 업데이트(HCU)와 같은 최신 업데이트가 구현되었을 수 있습니다.
HCU와 "숨겨진 보석" 시스템은 Reddit과 같은 사용자 생성 콘텐츠(UGC) 플랫폼에 도움이 된 것으로 알려져 있습니다.
이미 방문자 수가 많은 사이트인 Reddit은 최근 Google 수정으로 인해 다른 사이트를 희생하면서 검색 가시성이 두 배 이상 증가했습니다.
내 이론은 일부 예외를 제외하고 UGC 플랫폼이 콘텐츠 조정으로 인해 대량 생산된 AI 콘텐츠의 소스일 가능성이 낮다는 것입니다.
완벽한 검색 결과는 아니지만 원시 UGC 검색에 대한 전반적인 만족도는 ChatGPT가 온라인에서 생성하는 모든 항목에 대해 지속적으로 순위를 매기는 Google를 능가할 수 있습니다.
Google가 AI 스팸에 즉각 대처하기 위해 고군분투하고 있기 때문에 UGC에 대한 강조는 품질을 강화하기 위한 일시적인 해결책이 될 수 있습니다.
Google는 장기적으로 AI 스팸을 어떻게 처리합니까?
DOJ 재판에서 Google에 관한 증언의 대부분은 Google에서 검색 품질과 순위를 담당하는 소프트웨어 엔지니어로 근무했던 17년차 직원인 Eric Lehman으로부터 나왔습니다.
Lehman의 주장에서 반복되는 주제는 사용자 데이터를 능가하는 Google의 기계 학습 시스템인 BERT 및 MUM의 중요성이 커지고 있다는 것입니다. 이러한 시스템은 매우 강력해지고 있어 Google는 향후 사용자 데이터보다 시스템에 더 많이 의존할 수 있습니다.
사용자 상호 작용 데이터 조각을 통해 검색 엔진은 의사 결정을 위한 신뢰할 수 있는 프록시를 보유합니다. 문제는 변화를 따라잡을 수 있을 만큼 충분한 데이터를 신속하게 수집하는 것입니다. 이것이 바로 일부 시스템이 대체 방법을 통합하는 이유입니다.
Google가 BERT와 같은 획기적인 기술을 사용하여 모델을 강화하여 초기 콘텐츠 분석의 정확성을 크게 향상시킬 수 있다면 격차를 해소하고 스팸을 감지하고 순위를 낮추는 데 필요한 시간을 눈에 띄게 줄일 수 있습니다.
이 문제는 지속되며 악용에 취약합니다. 더 많은 개인이 손쉽게 고수익 기회를 검색함에 따라 Google의 약점을 수정하라는 압력이 더욱 거세집니다.
아이러니하게도 시스템이 특정 종류의 스팸을 대규모로 처리하는 데 능숙해지면 그러한 활동에 참여할 기회와 동기가 줄어들어 시스템 자체가 거의 중복될 수 있습니다.