콘텐츠로 건너뛰기
번역기
이 페이지는 Microsoft 번역기의 기계 번역 서비스에서 자동으로 번역되었습니다. 자세히

마이크로 소프트 번역기 블로그

성별에 따른 번역 편견을 해소하는 Bing의 번역 기능

성별 편견 해소
성별 기호의 3D 렌더링.

오늘부터 영어에서 스페인어, 프랑스어 또는 이탈리아어로 번역할 때 남성용 및 여성용 대체 번역을 사용할 수 있게 되었음을 알려드립니다. 이 새로운 기능은 다음에서 모두 사용해 볼 수 있습니다. 빙 검색 그리고 빙 번역기 수직.

지난 몇 년 동안 기계 번역(MT) 분야는 트랜스포머 모델의 등장으로 혁명을 일으켜 품질이 크게 향상되었습니다. 하지만 실제 세계에서 수집된 데이터의 통계적 특성을 포착하도록 최적화된 모델은 의도치 않게 데이터에서 발견되는 사회적 편견을 학습하거나 심지어 증폭시킬 수도 있습니다.

이번 릴리스는 이러한 편견 중 하나, 특히 MT 시스템에 만연한 성별 편견을 줄이기 위한 조치입니다. Bing 번역기는 입력 문장에 여성형과 남성형 등 다른 성별 변형이 있을 수 있는 경우에도 항상 단일 번역을 생성해 왔습니다. Bing 번역기는 Microsoft 책임감 있는 AI 원칙를 통해 정확한 대체 번역을 제공하고 모든 성별을 포용할 수 있도록 노력하고자 합니다. 이 여정의 일환으로 첫 번째 단계는 여성용 및 남성용 번역본을 제공하는 것입니다.

성별은 언어마다 다르게 표현됩니다. 예를 들어 영어에서는 변호사라는 단어가 남성 또는 여성을 지칭할 수 있지만 스페인어에서는 남성 또는 여성을 지칭할 수 있습니다, 아보가다 는 여성 변호사를 지칭하는 반면 아보가도 는 남성을 가리킬 수 있습니다. 소스 문장에 '변호사'와 같은 명사의 성별에 대한 정보가 없는 경우 MT 모델은 대상 언어의 명사에 대해 임의의 성별을 선택할 수 있습니다. 이러한 임의적인 성별 지정은 종종 고정 관념과 일치하여 유해한 사회적 편견을 지속시키고(Stanovsky 외., 2019; Ciora 외., 2021) 완전히 정확하지 않은 번역으로 이어집니다.

아래 예에서는 성 중립적인 문장을 영어에서 스페인어로 번역하는 동안 번역된 텍스트가 고정관념적인 성 역할을 따르는 것을 볼 수 있습니다. 즉, 변호사가 남성으로 번역된 것입니다.

성별 편향이 있는 번역
"이 문제에 대해 변호사의 의견을 구합시다."라는 영어 텍스트를 성별 편견이 있는 스페인어로 번역한 스크린샷입니다.

원본 문장에 변호사의 성별을 암시하는 문맥이 없으므로 남성 또는 여성 변호사를 가정하여 번역을 생성하는 것이 모두 유효합니다. 이제 Bing 번역기는 여성형과 남성형 모두 번역을 생성합니다.

성별이 모호한 영어 텍스트를 스페인어로 번역하기
영어 텍스트 "이 문제에 대해 변호사의 의견을 구합시다."를 성별에 따라 번역된 스페인어로 번역한 스크린샷입니다.

시스템 설계

트위터는 성별에 따른 대안을 제공하기 위해 다음과 같은 주요 기준을 충족하도록 시스템을 설계하고자 했습니다:

  1. 여성용과 남성용 변형은 성별을 전달하는 데 필요한 경우를 제외하고는 최소한의 차이만 있어야 합니다.
  2. 여러 성별을 대체할 수 있는 다양한 문장을 다루고 싶었습니다.
  3. 번역이 원문 문장의 의미를 그대로 유지하도록 하고 싶었습니다.

성별 모호성 감지

소스 텍스트에서 성별 모호성을 정확하게 감지하기 위해 핵심 참조 모델을 활용하여 애니메이션 명사가 포함된 입력을 분석합니다. 예를 들어, 주어진 입력 텍스트에 성 중립적인 직업 단어가 포함된 경우, 문장의 다른 정보로 성별을 확인할 수 없는 경우에만 해당 단어에 대한 성별 대체어를 제공하고자 합니다. 예를 들어 "변호사가 호텔 로비에서 운전기사를 만났다."라는 영어 문장을 프랑스어로 번역할 때 변호사는 여성이지만 운전기사의 성별은 알 수 없습니다.

성별이 모호한 영어 텍스트를 프랑스어로 번역하기
영어 텍스트 "변호사가 호텔 로비에서 운전기사를 만났습니다."를 프랑스어로 번역한 스크린샷입니다.

대체 번역 생성

원문 문장의 성별이 모호한 경우, 번역 시스템의 출력을 검토하여 대체 성별 해석이 가능한지 결정합니다. 가능하다면 번역을 수정하는 가장 좋은 방법을 결정합니다. 먼저 원본 번역을 다시 작성하여 후보 대상 번역 세트를 구성합니다. 제안된 대안의 일관성을 보장하기 위해 의존성 관계를 기반으로 언어적 제약을 적용하고 잘못된 후보를 제거합니다.

그러나 많은 경우 제약 조건을 적용한 후에도 성별 대체 번역을 위한 여러 개의 재작성 후보가 남게 됩니다. 최적의 옵션을 결정하기 위해 번역 모델로 점수를 매겨 각 후보를 평가합니다. 좋은 성별 재작성은 소스 문장의 정확한 번역이기도 하다는 사실을 활용하여 최종 결과물의 정확도를 높일 수 있습니다.

성별 재반영을 위한 시스템 설계
성별 재반영을 위한 시스템 설계를 보여주는 다이어그램입니다.

Azure 머신 러닝에서 관리되는 온라인 끝점 활용하기

Bing의 성별 대체 기능은 다음에서 호스팅됩니다. 관리되는 온라인 엔드포인트 을 사용할 수 있습니다. 관리형 온라인 끝점은 Microsoft 관리형 컴퓨팅에서 모델 배포를 턴키 방식으로 호출하고 관리할 수 있는 통합 인터페이스를 제공합니다. 이를 통해 인프라 관리에 대한 걱정 없이 확장 가능하고 안정적인 엔드포인트를 활용할 수 있습니다. 이러한 추론 환경은 또한 짧은 지연 시간으로 많은 수의 요청을 처리할 수 있게 해줍니다. 최신 프레임워크와 기술을 사용하여 성별 디비아스 서비스를 만들고 배포하는 능력은 Azure 머신 러닝의 관리형 추론 기능을 사용하여 크게 향상되었습니다. 이러한 기능을 활용하여 낮은 COGS(제품 판매 비용)를 유지하고 간단한 보안 및 개인 정보 보호 규정 준수를 보장할 수 있었습니다.

어떻게 기여할 수 있나요?

MT에서 성별 편향성을 줄이기 위한 진전을 촉진하기 위해 영어에서 스페인어, 프랑스어, 이탈리아어로 성별이 모호한 번역 예시가 포함된 테스트 말뭉치를 공개합니다. 각 영어 소스 문장에는 가능한 모든 성별 변형을 포괄하는 여러 번역이 함께 제공됩니다.

테스트 세트는 도전적이고 형태학적으로 풍부하며 언어적으로 다양하도록 구성되었습니다. 이 말뭉치는 개발 과정에서 중요한 역할을 했습니다. 이 말뭉치는 번역 경험이 풍부한 이중 언어 언어학자의 도움을 받아 개발되었습니다. 또한 테스트 말뭉치에 대한 자세한 설명과 평가 방법론 및 도구에 대한 기술 문서도 공개할 예정입니다.

GATE: 성별이 모호한 번역 예제에 대한 도전 과제 - 논문

GATE: 성별이 모호한 번역 예제에 대한 챌린지 세트 - 테스트 세트

앞으로 나아갈 길

이 작업을 통해 소스 성별이 모호한 경우 MT 출력의 품질을 개선하고 일반적으로 더 우수하고 포괄적인 자연어 처리(NLP) 도구의 개발을 촉진하는 것을 목표로 하고 있습니다. 초기 릴리스는 영어에서 스페인어, 프랑스어, 이탈리아어로 번역하는 데 중점을 두고 있습니다. 향후에는 새로운 언어 쌍으로 확장하고 추가 시나리오와 편견 유형을 다룰 계획입니다.

크레딧:

Ranjita Naik, Spencer Rarrick, Sundar Poudel, Varun Mathur, Jeshwanth Kumar Chandrala, Charan Mohan, Lee Schwartz, Steven Nguyen, Amit Bhagwat, Vishal Chowdhary입니다.