Пояснение к отчёту P1 — От кривых вращения к слабому линзированию: проверка среднего гравитационного отклика EFT

Публично ориентированное пояснение на основе P1_RC_GGL: строгий тест замыкания динамики галактик и слабого линзирования (v1.1)

Оригинальный отчёт: Guanglin Tu | Версионная основа: P1 v1.1 | Редакционный статус: публичный пояснительный черновик / не рецензируемая статья
Связанные архивы: DOI отчёта 10.5281/zenodo.18526334 | DOI пакета воспроизведения 10.5281/zenodo.18526286

Ознакомьтесь с исходным отчётом об оценке:

1. ChatGPT: https://chatgpt.com/share/6a00cd62-6e34-83eb-b165-6ec09e3519cc

2. Gemini: https://gemini.google.com/share/773ec96d75a0

3. Grok: https://grok.com/share/bGVnYWN5LWNvcHk_c0b4fa65-0e86-4adb-9b58-5617d616dc04

4. Qwen: https://chat.qwen.ai/s/22ab9336-671f-420a-a7fa-43e24774bb2a?fev=0.2.46

5. DeepSeek: https://chat.deepseek.com/share/tj6k7hb5owtoldg2bm

6. Doubao: https://www.doubao.com/thread/w166b207d7345e46a

Примечание к чтению

Это пояснительная версия, а не отдельный академический отчёт. Она основана на оригинальном отчёте P1, сохраняет ключевые рисунки и таблицы и добавляет простые объяснения того, что означает каждый важный шаг.

Это руководство объясняет только то, к чему P1 приходит в рамках заданных наборов данных, реестра параметров и статистического протокола: в совместном тесте кривых вращения галактик (RC) и слабого линзирования «галактика–галактика» (GGL) модель среднего гравитационного отклика EFT явно превосходит минимальную базовую линию DM_RAZOR, протестированную здесь.

Это руководство не толкует P1 как утверждение, что «тёмная материя опровергнута». P1 — лишь первый шаг в экспериментах серии P. Он тестирует один наблюдаемый слой EFT — «средний гравитационный фундамент», — а не всё содержание полного каркаса EFT.

0 | Понять P1 за пять минут: что именно проверяет этот тест?

P1 можно представить как тест согласованности между разными наблюдательными зондами. Он не просто спрашивает, может ли модель подогнать один набор данных. Вместо этого он ставит на один проверочный стенд два очень разных гравитационных считывания: кривые вращения (RC) считывают динамику внутри галактических дисков, а слабое линзирование «галактика–галактика» (GGL) считывает проецированный гравитационный отклик на больших масштабах.

RC похожи на спидометр: они показывают, с какой скоростью газ и звёзды вращаются на разных радиусах в диске галактики.
GGL похоже на весы: измеряя, как передние галактики слегка искривляют свет фоновых галактик, оно выводит среднее распределение гравитации/массы вокруг галактик на больших масштабах.
Главный вопрос P1 таков: может ли одна и та же модель сначала выучить закономерность из RC, затем перенести её на GGL и по-прежнему дать осмысленный результат?

P1 в одном предложении

P1 поднимает планку с вопроса «хорошо ли это подгоняет один зонд?» до вопроса «замыкается ли это между зондами?». Модель с большей вероятностью уловила гравитационную структуру, общую для RC и GGL, только если она хорошо работает при правильном отображении, а после перемешивания отображения сигнал схлопывается.

Таблица 0 | Ключевые числа P1 и как их читать

Метрика	Как читать в P1 / P1A	Смысл простым языком
Совместная подгонка ΔlogL_total	В основном сравнении текста EFT на 1155–1337 выше DM_RAZOR	Разница общего счёта по двум наборам данных; большее значение означает лучшее общее объяснение.
Сила замыкания ΔlogL_closure	В основном сравнении текста EFT = 172–281, тогда как DM_RAZOR = 127	Способность предсказывать GGL после вывода только из RC; большее значение означает более сильную межзондовую самосогласованность.
Отрицательный контроль с перемешиванием	После перемешивания RC-bin→GGL-bin сигнал замыкания EFT падает до 6–23	Если правильное соответствие разрушено, преимущество должно исчезнуть; чем резче схлопывание, тем лучше оно исключает ложный сигнал.
Стресс-тест P1A с несколькими DM-моделями	DM 7+1 + DM_STD, при сохранении EFT_BIN как сравнения	P1A смотрит не только на минимальную базовую линию DM_RAZOR. Он помещает несколько низкоразмерных, проверяемых ветвей усиления DM в один и тот же протокол замыкания.

1 | Зачем нужен P1? Где застряла космология галактических масштабов?

Проблемы галактического масштаба остаются трудными потому, что «потребность в дополнительной гравитации/массе» — это не только феномен кривых вращения. Множество наблюдений показывает тесную связь между видимым барионным веществом в галактиках и фактическими динамическими/линзировочными считываниями. Для маршрута тёмной материи это означает, что тёмные гало, барионная обратная связь, история формирования галактик и наблюдательные систематики должны быть согласованы с высокой точностью. Для гравитационных маршрутов без тёмной материи это означает, что модель не может просто хорошо выглядеть на RC; она должна также выдерживать слабое линзирование, популяционные масштабные соотношения и отрицательные контроли.

Именно это мотивирует P1. Он не начинает с тезиса «тёмная материя неверна» или «EFT обязательно права». Он берёт одну проверяемую заявку и отдаёт её на аудит: может ли средний гравитационный отклик EFT оставить воспроизводимый и переносимый сигнал в межзондовом замыкании RC→GGL?

Контекст внешней литературы: почему окно RC+GGL важно

Радиальное ускорительное соотношение (RAR), предложенное McGaugh, Lelli и Schombert в 2016 году, показывает тесную корреляцию с малым разбросом между наблюдаемым ускорением, прослеживаемым кривыми вращения, и ускорением, предсказанным по барионному веществу. Это делает «сцепление барионов и гравитационного отклика» неизбежной темой для теории галактического масштаба.

Brouwer et al. (2021) использовали слабое линзирование KiDS-1000, чтобы продлить RAR к меньшим ускорениям и большим радиусам, сравнив MOND, эмерджентную гравитацию Verlinde и модели LambdaCDM. Они также отметили, что различия между ранними и поздними типами галактик, газовые гало и связь галактика–гало остаются ключевыми объяснительными вопросами.

Mistele et al. (2024) далее использовали слабое линзирование, чтобы вывести кривые круговой скорости изолированных галактик, сообщив об отсутствии явного падения на расстояниях до нескольких сотен кпк и даже примерно до 1 Мпк, в согласии с BTFR. Это показывает, что слабое линзирование становится важным внешним считыванием для проверки гравитационного отклика галактического масштаба.

Поэтому ценность P1 не в том, что он «первым обсуждает RC и GGL вместе». Его ценность в том, что он помещает их в проверяемый протокол, построенный из фиксированного отображения, реестра параметров, замыкания RC-only→GGL, отрицательных контролей с перемешиванием и стресс-тестов P1A с несколькими DM-моделями.

2 | Что означает EFT в P1? Это не Effective Field Theory

Здесь EFT означает Теорию энергетических филаментов (Energy Filament Theory, EFT), а не effective field theory, широко используемую в физике. В техническом отчёте P1 EFT применяется сдержанно: она не входит в сравнение как завершённая финальная теория, а сначала сжимается до наблюдаемой, готовой к подгонке и фальсифицируемой параметризации «среднего гравитационного отклика».

Проще говоря, P1 не начинает с обсуждения всех микроскопических источников дополнительной гравитации и не пытается сразу доказать весь каркас EFT. Он задаёт более узкий и более жёсткий вопрос: если на галактических масштабах существует некоторый средний дополнительный гравитационный отклик, способен ли он сначала объяснить RC, а затем перенестись на предсказание GGL?

Какую часть EFT тестирует P1?

P1 нацелен на «средний гравитационный фундамент»: статистически устойчивый средний вклад, который может переноситься между выборками.

P1 пока не обрабатывает «стохастический/шумовой фундамент»: случайные члены, индивидуальные различия или дополнительный разброс, который могут вносить более микроскопические процессы флуктуаций.

P1 также не рассматривает полный микроскопический механизм, распространённость, время жизни или глобальные космологические ограничения. Это первый шаг в экспериментах серии P, а не окончательный вердикт.

3 | План серии P1: почему начинать со «среднего фундамента»?

Серию P можно понимать как программу наблюдательного извлечения EFT. Она не раскладывает все утверждения сразу; вместо этого она изолирует часть, которую легче всего проверить на публичных данных. Стратегия P1 — сначала проверить средний член: если средний гравитационный отклик не способен замкнуться даже от RC к GGL, то обсуждать более сложные шумовые члены или микроскопические механизмы не имеет надёжной точки входа.

Таблица 1 | Слоистое позиционирование серии P

Слой	Задаваемый вопрос	Роль в P1
P1	Может ли средний гравитационный отклик замкнуться в RC→GGL?	Главный вопрос настоящего отчёта
P1A	Если сторона DM усилена, остаётся ли вывод устойчивым?	Приложение B: стресс-тест DM 7+1 + DM_STD
Дальнейшая работа серии P	Можно ли расширить протокол на больше данных, больше зондов и более сложные систематики?	Направление будущей работы
Вопросы более глубокого уровня	Как связаны средний член, шумовой член и микроскопический механизм?	Вне области выводов P1

4 | Что это за данные? Что говорят RC и GGL?

4.1 Кривые вращения (RC): «измеритель скорости» внутри галактических дисков

Кривые вращения записывают, как быстро газ и звёзды обращаются вокруг центра галактики на разных радиусах. Чем быстрее вращение, тем сильнее требуемая центростремительная сила на данном радиусе — а значит, тем сильнее эффективная гравитация. P1 использует базу SPARC с предварительной обработкой, включающей 104 галактики и 2 295 точек скоростей, разделённых на 20 RC-бинов.

4.2 Слабое линзирование (GGL): более крупномасштабные «гравитационные весы»

Слабое линзирование «галактика–галактика» измеряет, как галактики переднего плана слегка изгибают свет фоновых галактик. Оно соответствует проецированному гравитационному отклику на больших, гало-масштабных радиусах и не зависит от деталей газовой динамики внутри галактики. P1 использует публичные данные GGL из KiDS-1000 / Brouwer et al. (2021): 4 бина по звёздной массе, по 15 радиальных точек в каждом бине, всего 60 точек данных, с использованием полной ковариации.

4.3 Фиксированное отображение: почему важна схема 20 RC-бинов → 4 GGL-бина

P1 связывает 20 RC-бинов с 4 GGL-бинами по фиксированному правилу: каждому GGL-бину соответствуют 5 RC-бинов, объединённых средним с весами по числу галактик. Это отображение остаётся неизменным для всех моделей и служит жёстким ограничением для теста замыкания и честного сравнения.

Почему нельзя настраивать отображение постфактум?

Если бы после факта можно было выбирать, «какие RC-бины соответствуют каким GGL-бинам», модель могла бы изготовить замыкание перестановкой соответствия. P1 заранее фиксирует отображение 20→4 и намеренно ломает его отрицательным контролем с перемешиванием именно для того, чтобы проверить, действительно ли сигнал замыкания зависит от физически разумного соответствия.

5 | Модели и методы: что именно сравнивает P1?

5.1 Сторона EFT: низкоразмерный средний гравитационный отклик

На стороне EFT для описания среднего гравитационного отклика используется низкоразмерный дополнительный член скорости. Форма дополнительного члена задаётся безразмерной ядерной функцией f(r/ℓ), где ℓ — глобальный масштаб, а амплитуда назначается по RC-бинам. Разные ядра представляют разные начальные наклоны, скорости перехода и дальние хвосты и используются для стресс-тестов устойчивости.

5.2 Сторона DM: основное сравнение в тексте и приложение P1A нужно читать отдельно

В основном сравнении текста DM_RAZOR — это минимизированная и проверяемая базовая линия NFW: она использует фиксированное соотношение c–M и не включает разброс от гало к гало, адиабатическое сжатие, ядра обратной связи, несферичность или средовые члены. Сильная сторона такого дизайна — контролируемое число степеней свободы и лёгкая воспроизводимость; слабая — он не может представлять каждую LambdaCDM-модель или каждую модель гало тёмной материи.

Поэтому в приложении B (P1A) сторона DM превращается в набор «стандартизированных стресс-тестов». Не меняя общего отображения и протокола замыкания, P1A постепенно добавляет низкоразмерные ветви усиления, такие как SCAT, AC, FB, HIER_CMSCAT, CORE1P, lensing m и комбинированная базовая линия DM_STD, сохраняя EFT_BIN как сравнение. Иначе говоря, P1A — это не сравнение только с одной минимальной DM-базой; он измеряет набор распространённых и проверяемых DM-механизмов одной и той же «линейкой замыкания».

Точная рамка выводов, используемая здесь

Основной текст: семейство EFT существенно превосходит минимальный DM_RAZOR в главном сравнении.

Приложение B / P1A: при нескольких низкоразмерных, проверяемых ветвях усиления DM и стресс-тесте DM_STD некоторые совместные подгонки DM улучшаются, но сила замыкания не устраняет преимущество EFT_BIN.

Поэтому самая безопасная формулировка такова: в пределах данных, отображения, реестра параметров и протокола замыкания P1/P1A средний гравитационный отклик EFT показывает более сильную межданную согласованность; это не то же самое, что исключить все модели тёмной материи.

5.3 Тест замыкания: важнейший экспериментальный синтаксис P1

1. Выполнить подгонку только по RC, чтобы получить набор апостериорных выборок RC-only.

2. Не перенастраивать модель по GGL; напрямую использовать апостериорное распределение RC для предсказания GGL.

3. Использовать полную ковариацию, чтобы вычислить оценку предсказания GGL при правильном отображении, logL_true.

4. Случайно переставить соответствие RC-bin→GGL-bin, чтобы вычислить оценку отрицательного контроля, logL_perm.

5. Вычесть одно из другого, чтобы получить силу замыкания: ΔlogL_closure = <logL_true> − <logL_perm>.

Простая аналогия

Тест замыкания похож на пересдачу в другой аудитории. Модель сначала учит закономерности в аудитории RC, затем отвечает в аудитории GGL. Если она выучила общее правило, а не локальный трюк, она должна хорошо отвечать и после смены аудитории; если соответствие между аудиториями намеренно перемешано, преимущество должно исчезнуть.

5.4 Перед чтением технических таблиц: четыре точки входа

Таблица 5.4 | Маршрут чтения следующего набора широких технических таблиц

Точка входа	На что смотреть	Почему это важно
Таблица S1a	Общий счёт совместной подгонки RC+GGL	Отвечает: «Если смотреть на два набора данных вместе, чьё общее объяснение сильнее?»
Таблица S1b	Сила замыкания, перемешивание и сканы устойчивости	Отвечает: «Может ли то, что было выучено из RC, перенестись на GGL?»
Таблица B0	Определения нескольких ветвей усиления DM в P1A	Не даёт свести P1 к «только сравнению с минимальным DM_RAZOR».
Таблица B1	Табло замыкания и совместной подгонки P1A	Проверяет, исчезает ли преимущество замыкания после усиления DM.

Примечание по вёрстке

Со следующей страницы начинаются альбомные страницы, чтобы широкие таблицы из исходного отчёта можно было сохранить целиком, без удаления столбцов или сжатия до нечитаемости. Основной текст уже дал простое чтение; альбомные технические таблицы предназначены для читателей, которым нужно сверить значения и ветви моделей.

Рисунок 0.1 | Рабочий процесс теста замыкания P1 на одной схеме

Примечание: верхняя цепочка — это «тест замыкания» (подгонка только RC → использование апостериора RC для предсказания GGL); нижняя цепочка — «совместная подгонка» (RC+GGL оцениваются вместе). Справа истинное отображение сравнивается с перемешанным отображением, чтобы получить силу замыкания ΔlogL.

6 | Ключевые технические таблицы: основные таблицы исходного отчёта и таблицы P1A

Таблица S1a | Основные метрики совместной подгонки (RC+GGL, Strict; сохранено из исходного отчёта)

Модель (workspace)	W-ядро	k	Совместный logL_total (лучший)	ΔlogL_total относительно DM	AICc	BIC
DM_RAZOR	none	20	-16927.763	0.0	33895.885	34010.811
EFT_BIN	none	21	-15590.552	1337.21	31223.501	31344.155
EFT_WEXP	exponential	21	-15668.83	1258.932	31380.057	31500.711
EFT_WYUK	yukawa	21	-15772.936	1154.827	31588.268	31708.922
EFT_WPOW	powerlaw_tail	21	-15633.321	1294.442	31309.038	31429.692

Таблица S1b | Метрики замыкания и устойчивости (Strict; сохранено из исходного отчёта)

Модель (workspace)	Замыкание ΔlogL (true-perm)	ΔlogL после отрицательного контроля с перемешиванием	Диапазон ΔlogL при сканировании σ_int	Диапазон ΔlogL при сканировании R_min	Диапазон ΔlogL при сканировании cov-shrink
DM_RAZOR	126.678	22.725	—	—	—
EFT_BIN	231.611	14.984	459–1548	1243–1289	1337–1351
EFT_WEXP	171.977	6.04	408–1471	1169–1207	1259–1277
EFT_WYUK	179.808	14.688	380–1341	1065–1099	1155–1166
EFT_WPOW	280.513	6.672	457–1500	1203–1247	1294–1308

Таблица B0 | Определения ветвей усиления DM в P1A (сохранено из приложения B исходного отчёта)

Workspace	dm_model	Новый параметр (≤1)	Физическая мотивация (ядро)	Принцип реализации (удобный для аудита)
DM_RAZOR	NFW (фиксированное c–M, без разброса)	—	Минимальная, проверяемая базовая линия гало LambdaCDM; используется как строгое сравнение с EFT	Фиксированное общее отображение; строгий реестр параметров; используется только как базовая линия относительного сравнения
DM_RAZOR_SCAT	NFW + разброс c–M (legacy)	σ_logc	Соотношение c–M имеет разброс; аппроксимируется одно-параметрическим логнормальным разбросом	≤1 новый параметр; по-прежнему используется общее отображение; прирост замыкания — критерий принятия
DM_RAZOR_AC	NFW + адиабатическое сжатие (legacy)	α_AC	Барионное падение может вызывать адиабатическое сжатие гало; аппроксимируется одно-параметрической силой	≤1 новый параметр; отображение неизменно; сообщаются изменения AICc/BIC и прирост замыкания
DM_RAZOR_FB	NFW + ядро обратной связи (legacy)	log r_core	Обратная связь может создавать внутреннее ядро; аппроксимируется одно-параметрическим масштабом ядра	≤1 новый параметр; та же рамка замыкания/отрицательного контроля; улучшение RC-only не является единственной целью
DM_HIER_CMSCAT	Иерархический разброс c–M + априор	σ_logc（hier）	Более стандартная иерархическая схема c_i∼logN(c(M_i),σ_logc); влияет на совместный апостериор RC и GGL	Явный априор; латентный c_i маргинализован; остаётся низкоразмерным и проверяемым
DM_CORE1P	Одно-параметрический прокси ядра (в духе coreNFW/DC14)	log r_core	Использует одно-параметрический прокси ядра для основного эффекта барионной обратной связи, избегая высокоразмерных деталей звездообразования	Ссылается на стандартную литературу; ≤1 новый параметр; привязан к тесту замыкания
DM_RAZOR_M	NFW + nuisance калибровки сдвига линзирования	m_shear（GGL）	Поглощает ключевую систематику со стороны слабого линзирования эффективным параметром, снижая риск принять систематику за физику	Nuisance-параметр явно записан; ему не разрешено обратно воздействовать на RC; результаты оцениваются главным образом по устойчивости замыкания
DM_STD	Стандартизированная DM-база (HIER_CMSCAT + CORE1P + m)	σ_logc + log r_core (+ m_shear)	Сводит три наиболее частых возражения в одну всё ещё низкоразмерную стандартизированную базовую линию	Сообщает реестр параметров и информационные критерии вместе; замыкание — главная метрика; используется как самое сильное защитное сравнение DM

Таблица B1 | Табло P1A (чем больше, тем лучше; сохранено из приложения B исходного отчёта)

Ветвь модели (workspace)	Δk	Лучший RC-only logL_RC (Δ)	Сила замыкания ΔlogL_closure (Δ)	Лучший совместный logL_total (Δ)
DM_RAZOR	0	-15702.654 (+0.000)	122.205 (+0.000)	-27347.068 (+0.000)
DM_RAZOR_SCAT	1	-15702.294 (+0.361)	121.236 (-0.969)	-23153.311 (+4193.758)
DM_RAZOR_AC	1	-15703.689 (-1.035)	121.531 (-0.674)	-23982.557 (+3364.511)
DM_RAZOR_FB	1	-15496.046 (+206.609)	129.454 (+7.249)	-27478.531 (-131.463)
DM_HIER_CMSCAT	1	-15702.644 (+0.010)	121.978 (-0.227)	-23153.160 (+4193.908)
DM_CORE1P	1	-15723.158 (-20.504)	122.056 (-0.149)	-27336.258 (+10.810)
DM_RAZOR_M	0 (+m)	-15702.654 (+0.000)	122.205 (+0.000)	-27340.451 (+6.617)
DM_STD	2 (+m)	-15832.203 (-129.549)	105.690 (-16.515)	-22984.445 (+4362.623)
EFT_BIN	1	-14631.537 (+1071.117)	204.620 (+82.415)	-19001.142 (+8345.926)

Как читать таблицу B1 (табло P1A)

• Δk: вновь добавленные степени свободы (больше означает более сложную модель; более сложная не означает автоматически лучшую).

• Сосредоточьтесь на двух столбцах: сила замыкания ΔlogL_closure(Δ) (больше означает большую самосогласованность переноса) и Joint best logL_total(Δ) (общий счёт совместной подгонки).

• Значение в скобках, (Δ), — это разница относительно DM_RAZOR, что облегчает прямое сравнение.

• Главный вопрос этой таблицы — исчезает ли преимущество замыкания после того, как DM-база «разумно усилена».

• Подсказка для чтения: DM_STD заметно улучшает совместный счёт, но его сила замыкания падает; EFT_BIN всё равно остаётся выше по силе замыкания.

В одном предложении: в этом низкоразмерном, проверяемом наборе DM-усилений улучшение совместной подгонки не производит автоматически более сильное замыкание; замыкание, то есть переносимость, остаётся ключевым критерием.

7 | Как читать главные результаты?

7.1 Совместная подгонка: при рассмотрении обоих наборов данных главный сравнительный счёт EFT выше

Таблица S1a и рисунок S4 показывают, что при тех же данных, том же общем отображении и примерно том же масштабе параметров семейство EFT имеет совместное ΔlogL_total 1155–1337 относительно DM_RAZOR. Для обычного читателя это означает: по одному и тому же правилу оценки, применённому к RC и GGL вместе, модели главного сравнения EFT получают более высокий общий счёт.

7.2 Тест замыкания: главное, что P1 хочет подчеркнуть, — «переносимость»

Высокая сила замыкания означает, что параметры, выведенные только из RC, могут лучше предсказывать GGL без повторного взгляда на GGL. В отчёте P1 ΔlogL_closure для EFT составляет 172–281, тогда как для DM_RAZOR — 127. Этот результат важнее утверждения, что «каждая модель хорошо подгоняет свои данные», потому что он ограничивает свободу модели на втором наборе данных.

7.3 Отрицательный контроль: почему «схлопывание сигнала» — хороший признак?

После того как P1 случайно перемешивает групповое соответствие RC-bin→GGL-bin, сигнал замыкания EFT падает до диапазона 6–23. Для обычного читателя этот шаг похож на проверку против «читинга»: если преимущество замыкания возникало бы только из-за кода, единиц, обработки ковариации или случайной подгонки, оно могло бы сохраниться и при перемешанном соответствии. Вместо этого фактическое преимущество схлопывается, показывая, что оно зависит от правильного отображения.

Рисунок S3 | Сила замыкания (чем больше, тем лучше): среднее преимущество лог-правдоподобия для предсказания RC-only → GGL.

Как читать этот рисунок

Этот рисунок — ядро P1. Чем выше столбец, тем лучше информация, выученная из RC, переносится на GGL.

Семейство EFT в целом выше DM_RAZOR, что указывает на более сильное межзондовое замыкание EFT в эксперименте «сначала выучить RC, затем предсказать GGL».

Рисунок S4 | Преимущество совместной подгонки (чем больше, тем лучше): лучший logL_total для RC+GGL относительно DM_RAZOR.

Как читать этот рисунок

Этот рисунок показывает общий счёт после объединения RC и GGL.

Все модели EFT находятся значительно выше 0, что показывает: преимущество EFT в главном сравнении — не локальный эффект одной точки, а общий паттерн совместного анализа.

Рисунок R1 | Отрицательный контроль: сигнал замыкания резко падает после перемешивания группировки.

Как читать этот рисунок

Этот рисунок показывает, что как только правильная связь бинирования RC↔GGL нарушается, сигнал замыкания резко падает.

Это делает результат P1 больше похожим на настоящую согласованность межданного отображения, а не на числовое совпадение, получаемое при произвольных отображениях.

8 | Устойчивость и контроли: как P1 избегает превращения в «просто красивую подгонку»?

Самый простой упрёк техническому отчёту — спросить, не происходит ли преимущество от одной настройки шума, одного отсечения центральной области, одной обработки ковариации или переобучения. P1 отвечает на это несколькими стресс-тестами.

Таблица 2 | Как читать тесты устойчивости и отрицательные контроли P1

Тест	Какое сомнение он пытается исключить	Как читать
Сканирование σ_int	Если RC содержит дополнительный неизвестный разброс, остаётся ли вывод устойчивым?	После ослабления ошибок RC ранжирование EFT и масштаб преимущества остаются устойчивыми.
Сканирование R_min	Если центральным областям галактик доверяют не полностью, остаётся ли вывод устойчивым?	После отсечения центральных областей EFT всё ещё сохраняет положительное преимущество.
Сканирование cov-shrink	Если оценка ковариации GGL неопределённа, остаётся ли вывод устойчивым?	После сжатия ковариации к диагонали преимущество оказывается нечувствительным.
Лестница абляции	Опирается ли EFT на лишнюю сложность, чтобы принудить подгонку?	Полный EFT_BIN поддерживается информационными критериями.
LOO-предсказание для удержанных данных	Объясняет ли модель только данные, которые уже видела?	После удержания одного GGL-бина модель всё ещё показывает сильную обобщающую способность.
Перемешивание RC-бинов	Происходит ли замыкание из истинного отображения?	После перемешивания группировки замыкание падает, поддерживая зависимость от отображения.

Рисунок R2 | Диапазон ΔlogL_total при сканировании σ_int (чем больше, тем лучше).

Как читать этот рисунок

Проверяет, сохраняется ли лидерство EFT после изменений предполагаемого внутреннего разброса RC.

Рисунок R3 | Диапазон ΔlogL_total при сканировании R_min (чем больше, тем лучше).

Как читать этот рисунок

Проверяет, остаётся ли преимущество EFT устойчивым после отсечения сложных центральных областей.

Рисунок R4 | Диапазон ΔlogL_total при сканировании cov-shrink (чем больше, тем лучше).

Как читать этот рисунок

Проверяет, чувствительно ли ранжирование к изменениям обработки ковариации слабого линзирования.

Рисунок R5 | Лестница абляции EFT_BIN (AICc, чем меньше, тем лучше).

Как читать этот рисунок

Проверяет, нужен ли полный EFT_BIN для объяснения данных, а не просто добавляет лишние параметры.

Рисунок R6 | LOO: распределение лог-правдоподобия для удержанных бинов.

Как читать этот рисунок

Проверяет, сохраняет ли модель предсказательную силу на невиденных GGL-бинах.

Рисунок R7 | Отрицательный контроль: перемешанное отображение вызывает явное падение среднего logL_true замыкания.

Как читать этот рисунок

Дополнительно показывает с точки зрения среднего logL_true, что замыкание зависит от правильного межданного отображения.

9 | P1A: почему «несколько DM-моделей в приложении» — ключевая поправка

Этот раздел не спрашивает: «Победила ли EFT только одну минимальную базу DM_RAZOR?» Он спрашивает, меняются ли выводы теста замыкания и совместной подгонки, когда базовая линия DM усиливается внутри низкоразмерного, воспроизводимого и ясно записанного реестра параметров (P1A). Иными словами, P1A стремится снизить возражение «вы просто выбрали слишком слабую DM-базу» и переводит обсуждение к вопросу о том, сохраняются ли различия в поведении замыкания при наборе проверяемых DM-усилений.

P1A не предназначен для исчерпания всех возможных вариантов моделирования гало в LambdaCDM и не превращает сторону DM в высокоразмерный, непроверяемый подгонщик. Он выбирает низкоразмерные, воспроизводимые усиления с ясным реестром параметров: разброс концентрации, адиабатическое сжатие, ядро обратной связи, иерархический априор для разброса c–M, одно-параметрический прокси ядра, nuisance-параметр калибровки сдвига слабого линзирования и комбинированную базовую линию DM_STD.

Главное чтение P1A

Среди трёх legacy-ветвей только feedback/core даёт небольшой чистый прирост силы замыкания; SCAT и AC не дают чистого прироста замыкания.

DM_HIER_CMSCAT, DM_RAZOR_M и DM_CORE1P очень мало влияют на силу замыкания или не показывают значимого чистого улучшения.

DM_STD может существенно улучшить совместный logL, но его сила замыкания уменьшается; это предполагает, что он в основном улучшает гибкость совместной подгонки, а не предсказательную силу переноса RC→GGL.

EFT_BIN всё ещё сохраняет более высокую силу замыкания и преимущество совместной подгонки в таблице B1 P1A; поэтому ядро утверждения P1 нельзя сводить к фразе «он победил только минимальный DM_RAZOR».

Рисунок B1 | Табло P1A: замыкание и совместное ΔlogL относительно базовой линии (чем больше, тем лучше).

Как читать этот рисунок

Этот рисунок показывает работу нескольких ветвей усиления DM относительно базовой линии.

Его смысл не в том, что «вся DM исключена», а в следующем: в пределах низкоразмерных, проверяемых DM-усилений, выбранных P1A, усиление DM не устраняет преимущество замыкания EFT_BIN.

10 | Почему эксперимент P1 важен

10.1 Методологическая значимость: поставить «межзондовое замыкание» выше «подгонки одного зонда»

Теория галактического масштаба легко застревает на вопросе, может ли модель подогнать конкретный набор кривых вращения. P1 поднимает вопрос на один уровень: могут ли параметры, выученные из RC, предсказывать слабое линзирование без перенастройки под GGL? Это превращает P1 из «соревнования подгонок» в «тест переносного предсказания».

10.2 Значимость прозрачности: рассматривать цепочку воспроизводимости как часть результата

Важный вклад P1 состоит в том, что он публикует вместе данные, таблицы и рисунки, метки запусков, отрицательные контроли, пакет воспроизведения и цепочку аудита. Это важно и для сторонников, и для критиков: обсуждение может возвращаться к одним и тем же публичным данным, тому же отображению, тем же скриптам и тем же метрикам, а не сравнивать лозунги.

10.3 Физическая значимость: сильный стресс-тест для направлений «гравитации без тёмной материи»

В направлениях гравитации без тёмной материи многие модели могут объяснить часть кривых вращения или RAR. Более трудная задача — также пройти считывания слабого линзирования и показать с помощью отрицательных контролей, что сигнал зависит от правильного отображения. P1 важен потому, что помещает средний гравитационный отклик EFT в протокол, похожий на внешний экзамен: RC — тренировочная площадка, GGL — поле переноса, а перемешивание — поле античитинга.

10.4 Важен ли этот эксперимент для области «гравитации без тёмной материи»?

Осторожная формулировка такова: если обработка данных P1, пакет воспроизведения и протокол замыкания выдержат внешнюю проверку, его можно рассматривать как эксперимент RC+GGL-замыкания, достойный серьёзного внимания в направлениях гравитации без тёмной материи / модифицированной гравитации. Его важность не в лозунге «тёмная материя опровергнута», а в предоставлении межзондового критерия, который можно воспроизвести, оспорить и расширить.

Существуют ли уже рамки предсказательного замыкания RC+GGL того же уровня?

Существуют релевантные рамки и наблюдательные традиции: MOND/RAR хорошо организует многие феномены кривых вращения; работа KiDS-1000 по RAR на слабом линзировании также сравнивала MOND, эмерджентную гравитацию Verlinde и модели LambdaCDM; LambdaCDM тоже может объяснять часть слабого линзирования/динамических феноменов через связи галактика–гало, газовые гало и моделирование обратной связи.

Но точное утверждение P1 не состоит в том, что «никакая другая рамка в мире не может объяснить RC+GGL». Оно в другом: в собственном публичном протоколе P1 — фиксированное отображение, замыкание RC-only→GGL, отрицательные контроли shuffle, реестр параметров и стресс-тесты P1A с несколькими DM — EFT сообщает о более сильной работе замыкания.

Иными словами, наиболее достойная внешней проверки часть P1 — это его конкретный, воспроизводимый протокол сравнения. Очень полезный следующий шаг — посмотреть, смогут ли MOND/RAR, LambdaCDM/HOD, гидродинамические симуляции или другие рамки модифицированной гравитации достичь таких же или более высоких оценок замыкания в том же протоколе.

11 | Что P1 может заключить, а чего не может?

Таблица 3 | Границы выводов P1

Можно заключить	При данных RC+GGL, фиксированном отображении и основном протоколе сравнения P1 семейство EFT имеет более высокие оценки совместной подгонки и силу замыкания, чем минимальный DM_RAZOR.
Можно заключить	В низкоразмерном, проверяемом диапазоне DM-усилений P1A несколько DM-усилений не устраняют преимущество замыкания EFT_BIN.
Можно заключить	Отрицательный контроль shuffle показывает, что сигнал замыкания зависит от правильного межданного отображения и не получается при произвольных отображениях.
Нельзя заключить	Нельзя сказать, что P1 опроверг все модели тёмной материи. P1A всё ещё не исчерпывает несферичность, зависимость от среды, сложные связи галактика–гало, высокоразмерную обратную связь или полные космологические симуляции.
Нельзя заключить	Нельзя сказать, что полный каркас EFT доказан из первых принципов. P1 тестирует только феноменологический слой среднего гравитационного отклика.
Нельзя заключить	Нельзя сказать, что все систематики исключены. P1 предоставляет свидетельства устойчивости только в пределах перечисленных стресс-тестов и области аудита.

12 | Частые вопросы от обычных читателей

Q1: Означает ли это, что «тёмной материи не существует»?

Нет. Выводы P1 должны ограничиваться использованными здесь данными, протоколом и моделями сравнения. P1A выходит за пределы минимального DM_RAZOR, но всё равно не представляет все возможные модели тёмной материи.

Q2: Означает ли это, что «EFT доказана»?

Тоже нет. P1 тестирует EFT как параметризацию среднего гравитационного отклика и показывает более сильную работу в замыкании RC→GGL; микроскопический механизм и полная теория не являются выводом P1.

Q3: Почему не сообщать значение значимости сразу в σ?

P1 использует унифицированные оценки правдоподобия, информационные критерии и различия замыкания. ΔlogL — это относительное преимущество при одном и том же правиле оценки; оно не эквивалентно одному значению σ.

Q4: Зачем перемешивать RC-bin→GGL-bin?

Это отрицательный контроль. Настоящий межзондовый сигнал должен зависеть от правильного отображения; если после перемешивания он остаётся столь же сильным, это скорее указывало бы на возможное смещение реализации или ложный статистический сигнал.

Q5: Что P1 должен сделать дальше?

Расширить тот же протокол на больше данных, больше DM-сравнений, более сложные систематики и больше рамок модифицированной гравитации — особенно так, чтобы внешние команды могли повторно проверить всё по той же метрике замыкания.

13 | Мини-глоссарий

Таблица 4 | Мини-глоссарий

Термин	Пояснение в одном предложении
Кривая вращения (RC)	Соотношение радиус–скорость вращения в диске галактики, используемое для вывода эффективной гравитации внутри диска.
Слабое линзирование (GGL)	Измерение среднего гравитационного/массового распределения вокруг галактик переднего плана через статистическое искажение форм фоновых галактик.
Тест замыкания	Использует апостериор RC для предсказания GGL, затем сравнивает его с отрицательным контролем, полученным перемешанным отображением.
Отрицательный контроль	Намеренно ломает ключевую структуру, чтобы увидеть, исчезнет ли сигнал; используется для исключения ложных сигналов.
Гало NFW	Профиль плотности гало тёмной материи, часто используемый в моделях холодной тёмной материи.
Соотношение c–M	Связь между концентрацией c гало тёмной материи и массой M; разрешён ли разброс, влияет на гибкость модели.
DM_STD	Стандартизированная ветвь DM-стресс-теста в P1A, объединяющая несколько низкоразмерных DM-усилений и nuisance-член линзирования.
ΔlogL	Разность лог-правдоподобия между двумя моделями при одном и том же правиле оценки; положительное значение означает, что первая лучше.
Ковариация	Матричное описание корреляций между точками данных; данные слабого линзирования обычно требуют полной ковариации.

14 | Предложенный маршрут чтения и точки входа для цитирования

1. Сначала прочитайте разделы 0–2 этого руководства, чтобы установить вопрос P1 и намеренно сдержанную роль EFT в P1.

2. Затем прочитайте рисунки S3, S4 и таблицы S1a/S1b, чтобы понять силу замыкания, совместную подгонку и отрицательные контроли.

3. Если вас беспокоит, что «DM-база слишком слаба», переходите прямо к разделу 9 и таблице B1 / рисунку B1.

4. Для технической проверки вернитесь к техническому отчёту P1 v1.1, приложению Tables & Figures и full_fit_runpack.

Основные архивные точки входа

Технический отчёт P1 (уровень релиза, Concept DOI): 10.5281/zenodo.18526334

Полный пакет воспроизведения P1 (Concept DOI): 10.5281/zenodo.18526286

Структурированная база знаний EFT (опционально, Concept DOI): 10.5281/zenodo.18853200

Примечание о лицензии: технический отчёт использует CC BY-NC-ND 4.0; полный пакет воспроизведения использует CC BY 4.0 (авторитетными источниками являются технический отчёт и архивы Zenodo).

15 | Ссылки и внешний фон

McGaugh, S. S., Lelli, F., & Schombert, J. M. (2016). The Radial Acceleration Relation in Rotationally Supported Galaxies. Physical Review Letters, 117, 201101. DOI: 10.1103/PhysRevLett.117.201101.

Famaey, B., & McGaugh, S. S. (2012). Modified Newtonian Dynamics (MOND): Observational Phenomenology and Relativistic Extensions. Living Reviews in Relativity, 15, 10. DOI: 10.12942/lrr-2012-10.

Brouwer, M. M., Oman, K. A., Valentijn, E. A., et al. (2021). The weak lensing radial acceleration relation: Constraining modified gravity and cold dark matter theories with KiDS-1000. Astronomy & Astrophysics, 650, A113. DOI: 10.1051/0004-6361/202040108.

Mistele, T., McGaugh, S., Lelli, F., Schombert, J., & Li, P. (2024). Indefinitely Flat Circular Velocities and the Baryonic Tully-Fisher Relation from Weak Lensing. The Astrophysical Journal Letters, 969, L3 / arXiv:2406.09685.

Bullock, J. S., & Boylan-Kolchin, M. (2017). Small-Scale Challenges to the LambdaCDM Paradigm. Annual Review of Astronomy and Astrophysics, 55, 343–387. DOI: 10.1146/annurev-astro-091916-055313.

Lelli, F., McGaugh, S. S., & Schombert, J. M. (2016). SPARC: Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves. The Astronomical Journal, 152, 157. DOI: 10.3847/0004-6256/152/6/157.

Navarro, J. F., Frenk, C. S., & White, S. D. M. (1997). A Universal Density Profile from Hierarchical Clustering. Astrophysical Journal, 490, 493.

Dutton, A. A., & Macciò, A. V. (2014). Cold dark matter haloes in the Planck era: evolution of structural parameters for NFW haloes. Monthly Notices of the Royal Astronomical Society, 441, 3359–3374.