Meta lança conjunto de dados gratuito para acelerar descobertas com IA
A Meta está lançando um conjunto de dados massivo e modelos, chamado Open Materials 2024, que pode ajudar cientistas a usarem IA para descobrir novos materiais muito mais rapidamente. O OMat24 enfrenta um dos maiores gargalos no processo de descoberta: os dados.
Para encontrar novos materiais, os cientistas calculam as propriedades dos elementos da tabela periódica e simulam diferentes combinações em computadores. Esse trabalho pode nos ajudar a descobrir novos materiais com propriedades que podem mitigar as mudanças climáticas, por exemplo, ao criar baterias melhores ou desenvolver novos combustíveis sustentáveis. No entanto, isso requer grandes conjuntos de dados, que são difíceis de obter.
Criá-los exige muita potência computacional e é muito caro. Muitos dos principais conjuntos de dados e modelos disponíveis atualmente também são proprietários, e os pesquisadores não têm acesso a eles. É aí que a Meta espera ajudar: a empresa está liberando hoje seu novo conjunto de dados e modelos gratuitamente e os tornando de código aberto. O conjunto de dados e os modelos estão disponíveis no Hugging Face para qualquer pessoa baixar, modificar e usar.
“Somos grandes defensores de que, ao contribuir com a comunidade e construir com base em modelos de dados de código aberto, toda a comunidade avança mais rápido”, diz Larry Zitnick, o principal pesquisador do projeto OMat.
Zitnick afirma que o novo modelo OMat24 estará no topo do ranking do Matbench Discovery, que classifica os melhores modelos de aprendizado de máquina para ciência dos materiais. Seu conjunto de dados também será um dos maiores disponíveis.
“A ciência dos materiais está passando por uma revolução com o aprendizado de máquina”, diz Shyue Ping Ong, professor de nanoengenharia da Universidade da Califórnia, em San Diego, que não esteve envolvido no projeto.
Anteriormente, os cientistas estavam limitados a fazer cálculos muito precisos das propriedades dos materiais em sistemas muito pequenos ou a fazer cálculos menos precisos em sistemas muito grandes, diz Ong. Esses processos eram trabalhosos e caros. O aprendizado de máquina preencheu essa lacuna, e os modelos de IA permitem que os cientistas realizem simulações de combinações de quaisquer elementos da tabela periódica de forma muito mais rápida e barata, afirma ele.
A decisão da Meta de disponibilizar seu conjunto de dados abertamente é mais significativa do que o próprio modelo de IA, afirma Gábor Csányi, professor de modelagem molecular na Universidade de Cambridge, que também não esteve envolvido no trabalho.
“Isso contrasta fortemente com outros grandes players da indústria, como Google e Microsoft, que recentemente publicaram modelos competitivos, mas que foram treinados em conjuntos de dados igualmente grandes, porém secretos”, diz Csányi.
Para criar o conjunto de dados OMat24, a Meta utilizou um conjunto existente chamado Alexandria e fez amostras de materiais dele. Em seguida, eles realizaram várias simulações e cálculos de diferentes átomos para ampliá-lo.
O conjunto de dados da Meta tem cerca de 110 milhões de pontos de dados, o que é muitas vezes maior do que os anteriores. Outros também não necessariamente possuem dados de alta qualidade, diz Ong.
A Meta expandiu significativamente o conjunto de dados além do que a atual comunidade de ciência dos materiais havia feito, e com alta precisão, afirma Ong.
A criação desses conjuntos de dados exige uma capacidade computacional imensa, e a Meta é uma das poucas empresas no mundo que pode arcar com isso. Zitnick diz que a empresa tem outro motivo para esse trabalho: está buscando encontrar novos materiais para tornar seus óculos de realidade aumentada mais acessíveis.
Trabalhos anteriores em bancos de dados abertos, como o criado pelo Materials Project, transformaram a ciência computacional de materiais na última década, diz Chris Bartel, professor assistente de engenharia química e ciência dos materiais na Universidade de Minnesota, que também não esteve envolvido no trabalho da Meta.
Ferramentas como o GNoME (redes gráficas para exploração de materiais) do Google demonstraram que o potencial para encontrar novos materiais aumenta com o tamanho do conjunto de treinamento, acrescenta ele.
“A liberação pública do conjunto de dados [OMat24] é verdadeiramente um presente para a comunidade e certamente acelerará a pesquisa nessa área imediatamente”, diz Bartel.
Comentários (0)
Deixe um comentário