NCMEC, Google и технология хеширования изображений


Каждый год Национальный центр США по поиску и защите пропавших без вести и эксплуатируемых детей (NCMEC) получает миллионы сообщений о матералах, представляющих несовершеннолетних в сексуальном контексте. Мишель Делон, старший вице-президент и главный операционный директор центра NCMEC, рассказывает о развитии организации, помощи технологических компаний и работе с Hash Matching API от Google.

Расскажите о NCMEC и ваших обязанностях в этой организации


Я работаю в NCMEC больше 20 лет. Я видела, как развивается компания, а также с какими проблемами и опасностями сталкиваются дети. Моя карьера началась с должности аналитика в CyberTipline.

Компания CyberTipline была создана в 1998 году. Благодаря ей обычные люди могли сообщать о случаях возможной эксплуатации детей. В то время мы получали обращения от родителей, которые были обеспокоены тем, что взрослый в интернете разговаривал с их ребенком неподобающим образом. Кроме того, нам поступали сообщения от тех, кто находил в сети материалы, представляющие несовершеннолетних в сексуальном контексте, которые мы называем CSAM-контентом. Позже в США был принят федеральный закон, который обязал технологические компании сообщать CyberTipline о появлении любого CSAM-контента в своих системах.

Сначала мы получали примерно 100 обращений в неделю, а первый сигнал от технологической компании пришел в 2001 году. К 2021 году мы стали получать около 70 000 новых сообщений в день. Некоторые из них поступают от частных лиц, но большинство – от технологических компаний.

Как центр NCMEC помогает другим компаниям бороться с материалами, представляющими несовершеннолетних в сексуальном контексте?


Закон не требует от компаний проявлять инициативу. Все гораздо проще: когда они обнаруживают CSAM-контент, то обязаны о нем сообщать. Именно это было движущей силой развития и совершенствования инструментов в CyberTipline на протяжении многих лет. Однако за последние пять лет мы заметили значительное увеличение числа обращений. Такая активность связана с тем, что многие технологические компании добровольно ищут CSAM-контент, удаляют его и сообщают о нем уполномоченным организациям.

Одна из важнейших инициатив, которую курирует Национальный центр по поиску и защите пропавших и эксплуатируемых детей, – платформы обмена хешами для технологических компаний и отдельных неправительственных организаций. Используя платформу обмена хешами для неправительственных организаций, NCMEC предоставляет заинтересованным технологическим компаниям хеш-значения более чем пяти миллионов подтвержденных и трижды проверенных CSAM-материалов. Так мы помогаем им бороться с подобными материалами в своих сетях. Многие крупные компании, включая Google, присоединились к этой инициативе, чтобы эффективнее бороться с CSAM-контентом на своих платформах. В этом проекте также участвуют проверенные неправительственные организации, которые помогают детям и предоставляют хеш-значения технологическим компаниям через платформу NCMEC. Благодаря этому компаниям не нужно связываться с каждой неправительственной организацией отдельно.

Мы также разработали платформу обмена CSAM-хешами для технологических компаний. Наша задача – предоставить каждой компании, которая готова заниматься поиском CSAM-контента, все необходимые инструменты, а также наладить обмен CSAM-хешами среди участников проекта. При этом Google вносит самый большой вклад в общее дело: около 74 % хешей.

Но, как можно догадаться, чем больше обращений, тем чаще в них повторяются одни и те же материалы. Это вполне объяснимо, поскольку компании используют хеш-значения для обнаружения ранее найденного контента. Однако чем больше число таких материалов, тем важнее для NCMEC иметь возможность идентифицировать новый контент, который появляется в интернете.

Hash Matching API помог NCMEC приоритизировать обращения CyberTipline. С чего начиналось сотрудничество NCMEC и Google?


Успех нашей программы передачи хешей породил новую проблему: объем. У нас, как и у многих других некоммерческих организаций, просто не хватает вычислительных мощностей для обработки такого количества данных. К нам на помощь пришла компания Google. Благодаря ей у нас появился Hash Matching API.

В 2020 году мы получили 21 миллион обращений CyberTipline, в каждом из которых могло быть несколько изображений и видео. Как оказалось, всего нам сообщили примерно о 70 миллионах изображений и видео с несовершеннолетними в сексуальном контексте. Понятно, что среди них были дубликаты, которые наша система могла легко обнаружить, но она не могла определять визуально похожие материалы в режиме реального времени. Это сильно затрудняло поиск и приоритизацию материалов, о которых нашей команде ещё не было известно. А это имеет решающее значение при попытках найти детей, которые подвергаются сексуальному насилию.

Какие преимущества дает Hash Matching API Национальному центру США по поиску и защите пропавших без вести и эксплуатируемых детей?


Наша задача заключается в том, чтобы получить информацию и как можно скорее передать ее в правоохранительные органы. Одно из преимуществ Hash Matching API – возможность находить повторяющиеся материалы с помощью хешей.

Проверяя изображения и видео, где несовершеннолетние показываются в сексуальном контексте, мы добавляем специальные метки. Например, "Это CSAM-контент", "Это не CSAM-контент" или "Не удается определить возраст". Нетрудно догадаться, что, когда количество файлов достигает 70 миллионов только за один год, добавить метки вручную к каждому из них невозможно. Но благодаря API мы получаем доступ к функции сопоставления изображений и видео. Если мы уже отметили какой-то файл, API находит похожий контент и точно так же отмечает его в режиме реального времени. Таким образом нам удалось обработать более 26 миллионов изображений.

Отмечая контент, мы помогаем правоохранительным органам быстрее разобраться в том, какие обращения требуют проверки в первую очередь. Кроме того, это помогает нам определять совершенно новые материалы. Мы часто видим изображения сексуального насилия в отношении детей, но не можем даже догадываться, где находится этот ребенок. В таких случаях нам пришлось бы буквально искать иголку в стоге сена. Hash Matching API от Google позволил нам сосредоточить внимание на случаях, в которых помощь нужна здесь и сейчас.

Как это повлияло на работу и самочувствие специалистов NCMEC, которые вручную обрабатывали обращения CyberTipline и анализировали контент с нарушениями?


Hash Matching API снизил нагрузку на наших специалистов: им уже не приходится просматривать огромное количество повторяющихся изображений. Нам может поступать CSAM-контент с участием детей, которые на данный момент уже взрослые. Такие материалы навсегда остаются в интернете и служат поводом для бесконечной виктимизации жертв. Имея возможность отмечать подобный контент, наши специалисты приоритизируют недавние случаи насилия и в то же время удаляют недопустимые изображения с сайтов и других ресурсов.

Именно в этом и заключается наша работа – мы хотим помогать детям, которые попали в беду. Hash Matching API стал решением, благодаря которому нашим специалистам больше не нужно снова и снова просматривать одни и те же травмирующие материалы.

Как это помогает технологическим компаниям бороться с CSAM-контентом?


Мы знаем, что Google делится технологией обнаружения CSAM-контента с другими компаниями, помогая бороться с подобными материалами во всем мире, а Hash Matching API применяется во многих организациях за пределами NCMEC. Все технологические компании пользуются преимуществами простых и эффективных процессов в NCMEC. Благодаря Hash Matching API обращения CyberTipline обрабатываются быстрее и точнее.

NCMEC – основной ресурс для технологических компаний, правоохранительных органов, жертв насилия и их семей. У нас особый подход к проблемам и их решению. Благодаря CyberTipline мы узнаём о новом CSAM-контенте и материалах, которые публикуются в интернете снова и снова. Все обращения, которые мы получаем, передаются в правоохранительные органы. Мы никогда не должны забывать о детях, которые подверглись сексуальному насилию и эксплуатации.

Нам удалось установить личность более чем 20 000 детей, которые подверглись сексуальному насилию на камеру. Жертвы насилия – некоторые из которых ещё дети, а другие уже взрослые – ясно осознают, что могут стать жертвами постоянной виктимизации. Поэтому мы делаем все возможное, чтобы сократить количество подобных материалов в интернете.

Нас пугает мысль о том, что общество может игнорировать "старый" CSAM-контент. Вот почему мы бьем тревогу и напоминаем людям, что речь идет о настоящих детях – о 20 000 человек, которые пытаются восстановиться после пережитых травм и жить нормальной жизнью. Их утешает то, что такие компании, как Google, прикладывают все усилия, чтобы удалить материалы, запечатлевшие самые страшные моменты их жизни.

Если вы обнаружите в интернете материалы, представляющие несовершеннолетних в сексуальном контексте, сообщите об этом в Национальный центр США по поиску и защите пропавших без вести и эксплуатируемых детей (NCMEC) или другую уполномоченную организацию.

Google борется с сексуальным насилием над детьми и их эксплуатацией. В наших сервисах запрещено распространять материалы, представляющие несовершеннолетних в сексуальном контексте. Чтобы узнать больше, посетите сайт Protecting Children.

Узнайте, как Google обеспечивает безопасность пользователей в интернете