더 많은 데이터, 더 많은 문제? 생성 AI 데이터 관리를 위한 10가지 팁
데이터메이션 콘텐츠와 제품 추천은 편집상 독립적입니다. 귀하가 당사 파트너에 대한 링크를 클릭하면 당사는 수익을 창출할 수 있습니다. 더 알아보기.
대부분의 IT 리더와 많은 최고 경영진은 AI 주도 이니셔티브를 계획하고 이미 실행하고 있지 않더라도 고려하고 있습니다. 2022년 가을 ChatGPT 출시 이후 등장한 많은 오픈 소스 기술 외에도 AI 및 기계 학습을 위한 상위 3대 퍼블릭 클라우드 제공업체에만 수십 개의 도구가 있습니다.
잠재력은 엄청납니다. Bloomberg Intelligence의 새로운 보고서에 따르면 생성 AI 시장은 2022년 400억 달러에 불과한 시장 규모에서 향후 10년 동안 1조 3천억 달러로 성장할 준비가 되어 있습니다.
올바른 AI를 얻으려면 고품질 데이터, 특히 구조화되지 않은 데이터가 필요합니다. AI의 성공은 전 세계 모든 데이터의 최소 80%를 차지하는 이 파일과 객체 데이터의 적절한 큐레이션과 관리에 달려 있습니다. 이 기사에서는 이러한 노력의 과제를 식별하고 이를 해결하기 위한 10가지 팁을 제공합니다.
구조화되지 않은 데이터는 그 양과 문서, 이미지부터 센서 및 장비 데이터, 비디오 등에 이르기까지 구성되는 다양한 유형의 파일과 형식을 고려할 때 관리하기가 까다롭습니다. 점점 더 증가하는 하이브리드, 멀티 클라우드 기업에서 여러 스토리지 시스템에 분산되는 경우가 많으므로 필요에 따라 검색, 분할 및 이동하기가 어렵습니다.
구조화되지 않은 데이터의 증가로 인해 저장 및 백업 비용이 많이 듭니다. 실제로 2022년 조사에 참여한 기업 조직의 대다수(68%)는 IT 예산의 30% 이상을 스토리지에 지출하고 있습니다. 이러한 문제는 프로젝트가 완료될 때 연구원 및 다른 팀이 ROT(중복되고, 쓸모없고, 사소한) 데이터의 복사본을 거의 삭제하지 않기 때문에 데이터 집약적인 산업에서 더욱 악화됩니다.
AI를 위한 구조화되지 않은 데이터를 관리하려면 공급업체와 클라우드 전반에 걸쳐 비용 효율적인 스토리지 및 데이터 이동성 결정을 안내하는 데이터 중심 접근 방식을 포함한 새로운 솔루션과 전술이 필요합니다.
또한 올바른 데이터 세트를 활용해야 한다는 필요성도 커지고 있습니다. 스탠포드의 새로운 연구에 따르면 LLM(대형 언어 모델)의 성능은 "명시적으로 긴 컨텍스트 모델의 경우에도 입력 컨텍스트가 길어짐에 따라 실질적으로 감소"하는 것으로 나타났습니다. 즉, 프로젝트에 따라 대규모 데이터 세트보다 올바른 데이터 세트를 큐레이팅하는 것이 더 중요할 수 있습니다.
생성적 AI 솔루션, 지침 및 관행은 매일 바뀌고 있습니다. 그러나 지능형 비정형 데이터 관리를 위한 기반을 구축하면 조직이 이 변화하는 시대를 유연하게 대처하고 전환하는 데 도움이 될 수 있습니다. 고려해야 할 몇 가지 전술은 다음과 같습니다.
데이터 인덱싱은 기업 전체의 모든 비정형 데이터를 분류하고 파일 크기, 파일 확장자, 파일 생성 날짜, 마지막 액세스 날짜 등 주요 메타데이터(데이터에 있는 데이터)를 기준으로 검색 가능하게 만드는 강력한 방법입니다. 가시성은 보관, 분석, 규정 준수 등에 대한 변화하는 비즈니스 요구 사항을 충족하기 위해 데이터를 올바른 위치에 배치하는 데 기본입니다.
AI 기반을 마련할 때는 정보가 많을수록 좋습니다. 데이터에 대한 정보가 많을수록 적시에 AI 및 ML 도구에 데이터를 제공할 수 있는 준비가 더 잘 되며 이러한 새로운 사용 사례에 적합한 스토리지 인프라를 확보할 수 있는 준비도 더 잘 될 것입니다. . 최소한 데이터 볼륨 및 성장률, 스토리지 비용, 주요 데이터 유형 및 크기, 부서별 데이터 사용 통계, "핫" 또는 활성 데이터와 "콜드" 또는 거의 액세스하지 않는 데이터를 이해해야 합니다.
데이터 자산에 대한 기본 수준의 이해가 이루어지면 추가 검색 기능을 위해 메타데이터로 데이터 자산을 강화할 수 있습니다. 예를 들어, 개인 식별 정보(PII)나 고객 데이터, 지적 재산(IP) 데이터, 실험 이름 또는 장비 ID가 포함된 파일을 검색할 수 있습니다. 이러한 파일은 규정을 준수하는 저장소로 분할되거나 분석 플랫폼에 제공될 수 있습니다.
오늘날 조직 전체에서 AI 및 기타 연구에 대한 사용 사례가 너무 많기 때문에 중앙 IT와 부서 IT 연락 담당자가 협력하여 데이터 관리 전략을 설계해야 합니다. 이를 통해 사용자는 가장 중요한 데이터에 빠르게 액세스할 수 있을 뿐만 아니라 필요할 때 저렴한 스토리지에 보관된 오래된 데이터에도 액세스할 수 있습니다.