사례를 통해 AI 개발 방법 살펴보기

6월 말에 Microsoft는 데스크톱 컴퓨터에 전원을 공급할 수 있는 새로운 인공 지능 기술을 출시했습니다.

Copilot이라고 하는 이 도구는 소프트웨어 개발자의 작업 속도를 높이도록 설계되었습니다. 랩톱에서 글을 작성할 때 즉시 추가할 수 있는 코드 블록이 준비되어 있다고 말할 수 있습니다.

많은 프로그래머가 새 도구를 좋아하거나 관심을 보였습니다. 그러나 로스앤젤레스의 프로그래머, 프로듀서, 작가, 변호사인 Matthew Butterick은 그들 중 하나가 아니었습니다. 이번 달에 그와 다른 변호사 그룹은 Copilot을 개발하고 출하한 Microsoft 및 기타 최고 회사를 상대로 집단 소송을 제기했습니다.

많은 고급 AI 기술과 마찬가지로 Copilot은 데이터 분석을 통해 기능을 개발했습니다. 이 경우 인터넷을 통해 전송되는 수십억 개의 컴퓨터 라인에 의존했습니다. 52세의 Butterick은 이것을 불법 복제와 비교합니다. 왜냐하면 시스템은 기존 작업에 대한 그의 공로를 인정하지 않기 때문입니다. 그의 소송은 Microsoft와 그 파트너가 원본 코드를 작성하는 데 수년을 소비한 수백만 명의 개발자의 법적 권리를 침해했다고 주장합니다.

이 소송은 기술 산업에 혁명을 일으킬 인공 지능의 방법인 ‘AI 교육’이라는 기술을 합법적으로 개발한 최초의 것으로 여겨진다. 최근 몇 년 동안 많은 예술가, 작가, 전문가 및 개인 정보 보호 활동가들은 회사가 자신의 것이 아닌 데이터를 사용하여 AI 시스템을 교육하고 있다고 불평했습니다.

이 경우는 지난 수십 년 동안 기술이 발전하면서 증가하고 있습니다. 1990년대와 2000년대에 Microsoft는 오픈 소스 소프트웨어의 부상을 회사 비즈니스의 미래에 대한 위협으로 간주하여 이에 맞서 싸웠습니다. 오픈 소스에 대한 수요가 증가함에 따라 Microsoft는 이를 수용하고 개발자를 위한 오픈 하우스이자 코드를 작성하고 저장하는 장소인 GitHub를 인수했습니다.

거의 모든 신세대 기술, 심지어 인터넷 검색 엔진도 비슷한 법적 문제에 직면해 있습니다. 법의 핵심을 연구하는 지적 재산권 변호사인 Bradley J. Hulbert는 일반적으로 “반대하는 법률이나 사례가 없습니다”라고 말했습니다.

소송은 일련의 지적 재산권 문제의 일부입니다. 예술가, 작가, 작가 및 기타 창의적인 유형은 회사와 연구원이 자신의 작업을 사용하여 허가 없이 비용을 지불하지 않고 새로운 기술을 만드는 것에 대해 매우 우려하고 있습니다. 기업은 인공 지능 시스템, Siri 및 Alexa와 같은 음성 인식 시스템, 심지어 무인 자동차를 포함하여 다양한 시스템을 이러한 방식으로 교육합니다.

Copilot은 Microsoft로부터 10억 달러의 자금 지원을 받은 샌프란시스코의 인공 지능 연구소인 OpenAI에서 개발한 기술을 기반으로 합니다. OpenAI는 디지털 인공 지능 기술을 가르치려는 노력의 최전선에 있습니다.

Microsoft와 GitHub가 Copilot을 출시한 후 GitHub의 CEO인 Nat Friedman은 기존 코드를 사용하여 시스템을 교육하는 것이 저작권법에 따른 자료의 “공정한 사용”이며 이러한 시스템을 개발한 회사와 연구원이 자주 사용하는 주장이라고 썼습니다. 그러나 어떤 법정 사건도 이 주장을 검증하지 못했습니다.

Butterick은 인터뷰에서 “OpenAI에 대한 Microsoft의 야망은 GitHub와 Copilot을 넘어섭니다.”라고 말했습니다. “그들은 어디에서나 무료로, 허가 없이, 영원히 모든 데이터를 훈련하기를 원합니다.”

2020년 OpenAI는 GPT-3라는 기계를 공개했습니다. 연구원들은 수천 권의 책, Wikipedia 기사, 채팅 로그 및 기타 인터넷 게시물을 포함한 광범위한 디지털 문서를 사용하여 시스템을 훈련했습니다.

텍스트 전체에서 패턴을 참조함으로써 시스템은 시퀀스의 다음 단어를 예측하는 방법을 학습했습니다. 사람이 이 “큰 언어 예”에 몇 단어를 입력하면 완전한 문장으로 생각을 완성할 수 있습니다. 이러한 방식으로 시스템은 그의 트위터 게시물, 연설, 시 및 이야기를 기록할 수 있습니다.

시스템을 만든 연구자들은 놀랍게도 인터넷에 게시된 수많은 프로그램에서 학습한 것으로 보이는 컴퓨터 프로그램을 작성할 수도 있습니다.

그래서 OpenAI는 새로운 코드화된 데이터 세트에 대해 새로운 시스템인 Codex를 교육했습니다. 연구소는 나중에 이 기술을 자세히 설명하는 연구 논문에서 이 코드 중 일부는 Microsoft에서 만든 인기 있는 서비스인 GitHub에서 가져온 것이라고 밝혔습니다.

이 새로운 시스템은 Microsoft가 GitHub를 통해 개발자에게 배포한 Copilot의 핵심 기술이 되었습니다. Copilot은 몇 명의 개발자와 1년 동안 테스트한 후 7월에 모든 코더를 GitHub에 출시했습니다.

현재 Copilot이 생성하는 코드는 간단하고 대규모 프로젝트에 유용할 수 있지만 다듬고 개선하고 테스트해야 한다고 이 기술을 사용한 많은 프로그래머가 말했습니다. 일부 프로그래머는 코딩을 배우거나 새로운 언어를 배우려고 할 때만 유용하다고 생각합니다.

그러나 Butterick은 Copilot이 오늘날 기술의 핵심인 코드를 만든 프로그래머의 글로벌 커뮤니티를 파괴할 것이라고 우려합니다. 기계가 출시된 지 며칠 후 그는 “이 부조종사는 멍청하고 그는 나를 죽이고 싶어합니다.”라는 제목의 블로그 게시물을 게시했습니다.

Butterick은 자신을 세상과 공개적으로 코드를 공유하는 개발자 커뮤니티인 오픈 소스 개발자라고 밝힙니다. 지난 30년 동안 오픈 소스 소프트웨어는 웹 브라우저, 휴대폰 및 모바일 애플리케이션을 포함하여 소비자가 매일 사용하는 많은 기술의 부상을 지원했습니다.

오픈 소스 소프트웨어는 코더와 회사 간에 자유롭게 공유하도록 되어 있지만 이러한 공유는 전체 개발자 커뮤니티에 도움이 되는 방식으로 사용되도록 설계된 라이선스에 의해 관리됩니다. Butterick은 Copilot이 이러한 라이선스를 위반했으며 계속 번성함에 따라 오픈 소스 코더를 사업에서 제외시킬 것이라고 믿습니다.

몇 달 동안 이 문제에 대해 공개적으로 불만을 토로한 후 그는 몇 명의 다른 변호사에게 사건을 맡겼습니다. 법원은 집단 상태가 부여되지 않았으며 아직 행동할 관할권이 부여되지 않았습니다.

놀랍게도 Butterick의 소송은 Microsoft, GitHub 및 OpenAI를 저작권 침해로 고발하지 않았습니다. 그의 소송은 회사가 GitHub의 개인 정보 보호 정책을 위반하고 회사가 콘텐츠를 사용할 때 저작권 정보를 공개하도록 요구하는 연방법을 위반했다고 주장하면서 다릅니다.

Butterick과 소송 배후의 다른 변호사인 Joe Saveri는 소송이 저작권 문제를 해결할 수 있다고 말했습니다.

깃허브 대변인은 회사가 이 문제에 대해 논의할 것인지 물었을 때 거절했다가 이메일 성명에서 회사는 “처음부터 Copilot과 함께 혁신에 전념해 왔으며 개발자가 전 세계에서 번성할 수 있도록 제품을 계속 발전시킬 것”이라고 말했습니다. .” 마이크로소프트와 OpenAI는 이번 소송에 대해 논평을 거부했다.

현행법에 따라 많은 전문가들은 저작권이 있는 자료에 대한 AI 시스템 교육이 불법이라고 생각합니다. 그러나 그렇게 하는 것은 시스템이 훈련된 것과 매우 유사한 것을 생산할 수 있다면 가능할 것입니다.

일부 Copilot 사용자는 기존 소프트웨어와 동일하거나 유사하게 보이는 코드를 생성한다고 보고했으며, 이는 Butterick 및 기타 업체에 대한 소송의 핵심 부분이 될 수 있습니다.

지적 프로젝트와 현대 기술 작업을 전문으로 하는 캘리포니아 대학교 버클리 캠퍼스의 Pam Samuelson 교수는 법률 사상가와 규제자들이 기술이 존재하기 전인 1980년대에 이러한 법적 문제를 간략히 조사했다고 말했습니다. 이제 법적인 검토가 필요하다고 말했다.

새뮤얼슨은 “더 이상 장난감 문제가 아니다”라고 말했다.

Leave a Comment