Обнаружил что биндинг процесса nginx на одно ядро в некоторых случаях помогает уменьшить загрузку cpu (видать из-за особенностей работы кешей ядер).
Возможно есть смысл добавить опцию в конфиг, позволяющую делать автоматическую привязку воркеров к конкретному ядру, например циклически привязать каждый воркер к своему ядру, начиная с нулевого:
cpuset 0-7 round-robin;
или просто забиндить воркеры на часть ядер:
cpuset 1-3;