ИИ и новые стандарты обещают сделать научные данные более полезными, сделав их многоразовыми и доступными

Каждый раз, когда ученый проводит эксперимент, или социолог проводит опрос, или гуманитарий анализирует текст, они генерируют данные. Наука опирается на данные — без них у нас не было бы потрясающих изображений космического телескопа Джеймса Уэбба, вакцин для предотвращения болезней или эволюционного древа, которое прослеживает родословную всей жизни.

Эта научная деятельность генерирует невообразимое количество данных, так как же исследователи отслеживают их? И как они гарантируют, что они доступны для использования как людьми, так и машинами?

Чтобы улучшить и продвинуть науку, ученые должны иметь возможность воспроизводить чужие данные или объединять данные из нескольких источников, чтобы узнать что-то новое.

Любой вид совместного использования требует управления. Если вашему соседу нужно одолжить инструмент или ингредиент, вы должны знать, есть ли он у вас и где вы его храните. Исследовательские данные могут находиться на ноутбуке аспиранта, похоронены в USB-накопителе профессора или сохранены более постоянно в онлайн-хранилище данных.

Управление исследовательскими данными

Управление исследовательскими данными — это область науки, которая фокусируется на обнаружении и повторном использовании данных. Как область, она включает в себя услуги исследовательских данных, ресурсы и киберинфраструктуру. Например, один тип инфраструктуры, хранилище данных, дает исследователям место для хранения своих данных для долгосрочного хранения, чтобы другие могли их найти. Короче говоря, управление исследовательскими данными охватывает жизненный цикл данных от колыбели до могилы и реинкарнации в следующем исследовании.

Правильное управление исследовательскими данными также позволяет ученым использовать уже имеющиеся данные, а не собирать уже существующие данные, что экономит время и ресурсы.

В связи с растущей политизацией науки многие национальные и международные научные организации повысили свои стандарты подотчетности и прозрачности. Федеральные агентства и другие крупные спонсоры исследований, такие как Национальные институты здравоохранения, теперь уделяют приоритетное внимание управлению исследовательскими данными и требуют, чтобы исследователи имели план управления данными, прежде чем они смогут получить какие-либо средства.

Ученые и менеджеры данных могут работать вместе, чтобы перепроектировать системы, используемые учеными, чтобы упростить обнаружение и сохранение данных. В частности, интеграция ИИ может сделать эти данные более доступными и пригодными для повторного использования.

Управление данными с помощью искусственного интеллекта

Многие из этих новых стандартов управления исследовательскими данными также связаны с более широким использованием ИИ, включая машинное обучение, в областях, управляемых данными. ИИ делает крайне желательным, чтобы любые данные были машинными, то есть могли использоваться машинами без вмешательства человека. Теперь ученые могут рассматривать машины не только как инструменты, но и как потенциальных автономных пользователей данных и соавторов.

Ключом к машинным данным являются метаданные. Метаданные — это описания, которые ученые устанавливают для своих данных, и могут включать такие элементы, как создатель, дата, охват и тема. Минимальные метаданные минимально полезны, но правильные и полные стандартизированные метаданные делают данные более полезными как для людей, так и для машин.

Требуются кадры менеджеров исследовательских данных и библиотекарей, чтобы сделать машинные данные реальностью. Эти специалисты по информации работают над облегчением коммуникации между учеными и системами, обеспечивая качество, полноту и согласованность общих данных.

Принципы данных FAIR, созданные группой исследователей под названием FORCE11 в 2016 году и используемые во всем мире, содержат рекомендации о том, как обеспечить повторное использование данных машинами и людьми. Данные FAIR можно найти, они доступны, совместимы и многократно используются, что означает, что они имеют надежные и полные метаданные.

Ученые, как правило, используют мысленные ярлыки, когда они ищут данные — например, они могут вернуться к знакомым и надежным источникам или искать определенные ключевые термины, которые они использовали раньше. В идеале, можно было бы бы выстроить этот процесс принятия решений экспертами и устранить как можно больше предубеждений для улучшения ИИ. Автоматизация этих мысленных ярлыков должна сократить трудоемкую работу по поиску нужных данных.

Планы управления данными

Но есть еще одна часть управления исследовательскими данными, которую ИИ не может взять на себя. Планы управления данными описывают, что, где, когда, почему и кто управляет исследовательскими данными. Ученые заполняют их, и они описывают роли и действия для управления исследовательскими данными во время и после окончания исследования. Они отвечают на такие вопросы, как: «Кто несет ответственность за долгосрочное сохранение», «Где будут храниться данные», «Как мне обеспечить безопасность своих данных» и «Кто платит за все это?».

Заявки на гранты почти для всех финансирующих агентств в разных странах в настоящее время требуют планов управления данными. Эти планы сигнализируют ученым о том, что их данные достаточно ценны и важны для сообщества, чтобы ими можно было поделиться. Кроме того, планы помогают финансирующим агентствам следить за исследованиями и расследовать любые потенциальные неправомерные действия. Но самое главное, они помогают ученым убедиться, что их данные остаются доступными в течение многих лет.

Если сделать все данные исследований максимально справедливыми и открытыми, это улучшит научный процесс. А доступ к большему количеству данных открывает возможность для более информированных дискуссий о том, как способствовать экономическому развитию, улучшать управление природными ресурсами, улучшать общественное здравоохранение и как ответственно и этично разрабатывать технологии, которые улучшат жизнь. Любой интеллект, искусственный или иной, выиграет от лучшей организации, доступа и использования исследовательских данных.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *