Gretel , pioneira na indústria de dados sintéticos, deu um salto monumental ao democratizar o acesso a dados de treinamento de IA de alta qualidade. A empresa anunciou na quinta-feira o lançamento do maior conjunto de dados Text-to-SQL de código aberto do mundo , um movimento destinado a acelerar o treinamento de modelos de IA e desbloquear novas possibilidades para empresas em todo o mundo.
O conjunto de dados, com mais de 100.000 amostras sintéticas de texto para SQL meticulosamente elaboradas, abrangendo 100 setores verticais, agora está disponível no Hugging Face sob a licença Apache 2.0. Esta medida ousada da Gretel visa equipar os desenvolvedores com as ferramentas necessárias para criar modelos de IA poderosos que possam compreender consultas em linguagem natural e gerar consultas SQL, preenchendo efetivamente a lacuna entre usuários corporativos e fontes de dados complexas.
“O acesso a dados de treinamento de qualidade é um dos maiores obstáculos à construção com IA generativa”, enfatizou Yev Meyer, cientista-chefe da Gretel, em entrevista à VentureBeat. “Dados sintéticos de alta qualidade podem preencher esta lacuna. Uma das mudanças recentes mais notáveis no mundo dos Large Language Models (LLMs) e da IA é o foco renovado na qualidade dos dados.”
Enfrentando o desafio da qualidade dos dados
O conjunto de dados inovador da Gretel foi gerado usando o Gretel Navigator , um sofisticado sistema composto de IA atualmente em versão prévia pública. “Nosso conjunto de dados Text-to-SQL de código aberto foi gerado pelo Gretel Navigator, nosso sistema composto de IA que integra execução baseada em agente, vários modelos proprietários, incluindo um modelo tabular de linguagem grande personalizado e tecnologias de aprimoramento de privacidade para gerar dados sintéticos de alta qualidade do zero, sob demanda”, explicou Meyer.
As implicações deste lançamento são de longo alcance, à medida que empresas de todos os setores enfrentam os desafios de acessar e aproveitar a riqueza de dados enterrados em bancos de dados complexos, data warehouses e data lakes. O conjunto de dados de Gretel não apenas fornece uma solução para esse problema, mas também inclui um campo de explicação que oferece descrições em inglês simples do código SQL, tornando mais fácil para os usuários finais entenderem e extrairem valor da saída.
Validação rigorosa de qualidade e amplas aplicações industriais
O compromisso da Gretel com a qualidade dos dados é evidente nos seus meticulosos processos de validação. “Cada conjunto de dados que geramos é avaliado quanto à qualidade. O benchmarking de qualidade é fundamental para o que fazemos”, disse Meyer. O conjunto de dados Text-to-SQL da empresa superou consistentemente outros em conformidade com os padrões SQL, correção e adesão às instruções quando avaliado usando um serviço independente e a técnica LLM como juiz .
As aplicações potenciais do conjunto de dados de Gretel são vastas, abrangendo setores desde finanças e saúde até governo. Os analistas financeiros podem agora fazer perguntas sobre o desempenho de uma empresa e receber respostas instantâneas provenientes de bases de dados, enquanto os prestadores de cuidados de saúde podem agilizar a análise de dados de ensaios clínicos a partir de múltiplas experiências. Os líderes governamentais também podem aproveitar o conjunto de dados para fornecer aos cidadãos acesso fácil a bases de dados de registos públicos, tais como licenças, propriedade e autorizações.
Equilibrando privacidade e acessibilidade de dados
À medida que as empresas reconhecem cada vez mais a importância da IA centrada em dados, a capacidade da Gretel de gerar enormes quantidades de dados sintéticos de alta qualidade posiciona-a como um interveniente-chave na indústria. “As soluções Gretel são construídas tendo em mente a escala empresarial para que os clientes possam satisfazer suas necessidades de dados ao criar dados do zero ou editar e aumentar os dados existentes”, disse Meyer à VentureBeat.
A dedicação de Gretel à privacidade é igualmente impressionante, empregando técnicas de ponta, como privacidade diferencial, para garantir que informações confidenciais permaneçam protegidas, ao mesmo tempo que permite que os modelos aprendam com os dados. Este compromisso de equilibrar precisão e privacidade diferencia a Gretel numa indústria onde a segurança dos dados é de extrema importância.
E ai o que você achou? Ajude-nos a crescer. Compartilhe essa matéria e nos sigam no instagram , facebook e no pinterest. Até a próxima.