🤖 Как предотвратить использование ваших данных для обучения искусственного интеллекта?
https://www.wired.com/story/how-to-stop-your-data-from-being-used-to-train-ai
Многие компании, в особенности OpenAI, Microsoft и Google, собирают данные из всего Интернета для обучения своих нейросетей. Этим они нарушают лицензии, не оставляя ссылки на источники, а затем извлекают выгоду. На основе этого идут судебные разбирательства, а правительства разрабатывают законы о регуляции ИИ.
Полностью предотвратить обучение ИИ на ваших данных очень трудно. Тем не менее следует позаботиться о том, чтобы запретить дальнейший сбор данных и защитить себя от возможных утечек конфиденциальной информации. Для компаний по умолчанию вы всегда согласны помогать обучать ИИ.
1. Настройки аккаунта
Adobe [1], Dropbox [2], OpenAI [3] и другие могли незаметно подписать вас на использование ваших данных для обучения ИИ. Такая настройка может быть скрыта или отсутствовать вовсе, и она включена по умолчанию. Стоит задуматься о поиске альтернативных сервисов, если в политике конфиденциальности заявлено об использовании данных для обучения ИИ.
2. Защита изображений
Художники могут защитить свои работы от Midjourney, Stable Diffusion и других. Инструмент Glaze [4] добавляет незаметные следы, которые "отравляют" датасеты ИИ. Однако нет гарантий, что через пару лет эта защита останется такой же эффективной. Также есть сайт, на котором можно отказаться от обучения: https://haveibeentrained.com.
3. Защита содержимого сайтов
Файл robots.txt [5] сообщает ботам на какие страницы заходить можно, а на какие — нельзя. Запретите некоторым ботам [6], доступ к вашему сайту, чтобы они не собирали данные для обучения ИИ. Также заблокируйте их IP-адреса [7]. Тем не менее боты не обязаны следовать правилам robots.txt.
4. Лицензии
Creative Commons [8] разрешает использование и изменение вашей работы при условии указания авторства и сохранении той же лицензии. Скорее всего, боты для сбора данных игнорируют лицензию, но я думаю, что это в любом случае хорошая мера для предотвращения злонамеренного использования творчества.
Стоит держать в уме тот факт, что любая публичная информация может быть использована в любых целях кем угодно. Но есть большая разница между соскабливанием публичных данных и намеренной продажей [9].
[1] https://toot.cafe/@baldur/109630505660962387
[2] https://arstechnica.com/information-technology/2023/12/dropbox-spooks-users-by-sending-data-to-openai-for-ai-search-features
[3] https://help.openai.com/en/articles/8983130-what-if-i-want-to-keep-my-history-on-but-disable-model-training
[4] https://glaze.cs.uchicago.edu
[5] https://www.cyberciti.biz/web-developer/block-openai-bard-bing-ai-crawler-bots-using-robots-txt-file
[6] https://github.com/healsdata/ai-training-opt-out/blob/main/robots.txt
[7] https://github.com/healsdata/ai-training-opt-out/blob/main/ip-ranges.txt
[8] https://creativecommons.org/licenses/by-sa/4.0/deed.ru
[9] https://arstechnica.com/information-technology/2024/02/your-reddit-posts-may-train-ai-models-following-new-60-million-agreement
#ии #нейросети #ai #noai #приватность #конфиденциальность #privacy