Email or username:

Password:

Forgot your password?
Kool Tech Tricks

🤖 Как предотвратить использование ваших данных для обучения искусственного интеллекта?

wired.com/story/how-to-stop-yo

Многие компании, в особенности OpenAI, Microsoft и Google, собирают данные из всего Интернета для обучения своих нейросетей. Этим они нарушают лицензии, не оставляя ссылки на источники, а затем извлекают выгоду. На основе этого идут судебные разбирательства, а правительства разрабатывают законы о регуляции ИИ.

Полностью предотвратить обучение ИИ на ваших данных очень трудно. Тем не менее следует позаботиться о том, чтобы запретить дальнейший сбор данных и защитить себя от возможных утечек конфиденциальной информации. Для компаний по умолчанию вы всегда согласны помогать обучать ИИ.

1. Настройки аккаунта

Adobe [1], Dropbox [2], OpenAI [3] и другие могли незаметно подписать вас на использование ваших данных для обучения ИИ. Такая настройка может быть скрыта или отсутствовать вовсе, и она включена по умолчанию. Стоит задуматься о поиске альтернативных сервисов, если в политике конфиденциальности заявлено об использовании данных для обучения ИИ.

2. Защита изображений

Художники могут защитить свои работы от Midjourney, Stable Diffusion и других. Инструмент Glaze [4] добавляет незаметные следы, которые "отравляют" датасеты ИИ. Однако нет гарантий, что через пару лет эта защита останется такой же эффективной. Также есть сайт, на котором можно отказаться от обучения: haveibeentrained.com.

3. Защита содержимого сайтов

Файл robots.txt [5] сообщает ботам на какие страницы заходить можно, а на какие — нельзя. Запретите некоторым ботам [6], доступ к вашему сайту, чтобы они не собирали данные для обучения ИИ. Также заблокируйте их IP-адреса [7]. Тем не менее боты не обязаны следовать правилам robots.txt.

4. Лицензии

Creative Commons [8] разрешает использование и изменение вашей работы при условии указания авторства и сохранении той же лицензии. Скорее всего, боты для сбора данных игнорируют лицензию, но я думаю, что это в любом случае хорошая мера для предотвращения злонамеренного использования творчества.

Стоит держать в уме тот факт, что любая публичная информация может быть использована в любых целях кем угодно. Но есть большая разница между соскабливанием публичных данных и намеренной продажей [9].

[1] toot.cafe/@baldur/109630505660
[2] arstechnica.com/information-te
[3] help.openai.com/en/articles/89
[4] glaze.cs.uchicago.edu
[5] cyberciti.biz/web-developer/bl
[6] github.com/healsdata/ai-traini
[7] github.com/healsdata/ai-traini
[8] creativecommons.org/licenses/b
[9] arstechnica.com/information-te

#ии #нейросети #ai #noai #приватность #конфиденциальность #privacy

1 comment
Iron Bug
@KoolTechTricks ценное тут - это списки вражеских айпишников. считай, блэклисты. а то приходится отлавливать ботов и банить по одному, реже - подсеткаами.
Go Up