4. ARM
• Год основания: 1990
• Расположение: Англия
• Число сотрудников: 1500 (2008)
• Продукция :
• IP-блоки (лицензии)
5. Intel
• Год основания 1968
• Расположение: США
• Число сотрудников: 100000 (2012)
• Продукция:
• x86 процессоры,
• Чипсеты,
• SSD-накопители,
• Сетевое оборудование,
• ...
6. Мобильная эра
Устройства
• Микро-серверы
• Телевизоры
• Ноутбуки
• Ультрабуки
• Планшеты
• Телефоны
Тенденции
• Снижение потребления
энергии
• Уменьшение габаритов и Интернет
веса
• Активное использование
сетей
9. Вычислительный конвейер
• IF (Instruction Fetch) — получение инструкции,
• ID (Instruction Decode) — раскодирование инструкции,
• EX (Execute) — выполнение,
• MEM (Memory access) — доступ к памяти,
• WB (Register write back) — запись в регистр.
11. Архитектура ARM
• RISC
• 32bit, 64bit*
• Cortex семейство:
– A – application
– M – microcontroller
– R – realtime
• ISA: ARMV5, ARMV7..
• Расширения:
• Thumb1-2, Jazelle, NEON, vFP
• Условное исполнение
12. Условное исполнение
Операция выполняется или нет в зависимости от текущих флагов
процессора
С код ARM assembler
while (i != j) { loop CMP Ri, Rj;
if (i > j) SUBGT Ri, Ri, Rj ;
i -= j; SUBLT Rj, Rj, Ri ;
else BNE loop ;
j -= i;
}
13. Thumb1,2
• Особенности
– 36 инструкций
– 16 битные
– Используется лишь половина регистров
– Меньший объем кода
– В версии Thumb 2 добавлены 32 инструкции
14. Jazelle
• Jazelle – технология выполнения java байт
кода без трансляции
• Jazelle DBX (Dynamic Bytecode eXecution —
динамическое выполнение байт-кодов)
поставляется как сопроцессор
• Jazelle RCT (Runtime Compiler Target —
поддержка динамических компиляторов)
переводит 1 байт-код в 1 машинную
инструкцию
15. Cortex A15
• 32bit
• ARMv7-A ISA
• 28nm* техпроцесс
• 1,2 - 2,5GHz
• Улучшенный предсказатель переходов
• Большее число OOO инструкций
• NEON инструкции за 1 такт*
• Поддержка виртуализации
• Security Extensions
23. Atom
Особенности:
• 32bit
• x86 ISA
• 32nm – 14nm* техпроцесс, 25mm2, ~50 млн транзисторов
• 0,6 – 2,13 GHz
• 32Kb L1 I-cache и D-cache
• 1-2 ядра (2-4 потока - HyperThreading)
• 0.65W - 13W Max TDP
Сферы применения и требования:
• Мобильные устройства, Netbook
– Потребление энергии важнее, чем производительность
– Производительность достаточная для серфинга Интернета
• Совместимость с x86
– Огромное число программ и ОС
– «x86 во всем»
24. Микроархитектура Atom
Правило BigCore: 1% производительности ~ 2% потреблению энергии
Правило Atom: 1% производительности ~ 1% потреблению энергии
• Суперскалярная архитектура
• In-order
• Совместимость с x86
Инструкции произвольной длины
(CISC)
2 декодера
• Функциональные модули
Минимум модулей для снижение
потребления энергии
2 целочисленных АЛУ (jmp, shift)
Нет целочисленных умножений и
делений
2 модуля вещественной арифметики
27. Intel vs ARM
Intel ARM
• х86 код является • Энергопотребление
стандартом • Распространение на
• Техпроцесс рынке
• Производительность • Стоимость
?
Чтение инструкции и её декодированиеПоиск всех связанных данных, необходимых для обработки инструкцииОбработка инструкцииДоступ в память (2 тактовая инструкция)Запись результатов
32 битные инструкции: ветвления и условного выполнения
Состаяние процессора переключается спец битом (24й)ARM CPSR (Current Program Status Register). The 'T'-bit must be cleared and the 'J'-bit set.
Первый арм проц с поддержкой виртуализации
The introduction of Large Physical Address Extensions (LPAE) enables the processor to access up to 1TB of memoryPerformance and power optimized L1 caches combine minimal access latency techniques to maximize performance and minimize power consumption. Caches are 32KB for instruction and 32KB for data. Also providing the option for cache coherence for enhanced inter-processor communication or support of rich SMP capable OS for simplified multicore software developmenCoreLink CCN-504 extends the capabilities of your SoC. Up to 16 cores on the same silicon die are possible with this fully-coherent, high-performance many-core solution. With up to 1TB/s of system bandwidth, and support for large L3 caches, SoC designers can address the needs of networking, server, and other enterprise-class devices.
Pipeline depth:A15 15A9 8
A53 – 64bit A7A57 – 64bit A15
In-order processor
Стратегия, поддержание закона Мура
Front-end:32KB, 8-way set associative, first-level instruction cache,Branch prediction units and ITLB,Two instruction decoders, each can decode up to one instruction per cycle.JEU – jump execution unitAGU - Address Generation UnitTLB – Translation Lookup Buffer (Для перевода виртуальных адресов в физические.Физические адреса затем используются для обращения в кэш данных)PMH - Page Miss Handler (Virtual->Physical Translation)BIU — Bus Interface Unit контроллеры шины и L2;The memory execution sub-system (MEU) can support 48-bit linear address for Intel64 Architecture, either 32-bit or 36-bit physical addressing modes. The MEUprovides:• 24KB first level data cache,• Hardware prefetching for L1 data cache,• Two levels of DTLB for 4KByte and larger paging structure.• Hardware pagewalker to service DTLB and ITLB misses.• Two address generation units (port 0 supports loads and stores, port 1 supportsLEA and stack operations)• Store-forwarding support for integer operations• 8 write combining buffers.The bus logic sub-system provides• 512KB, 8-way set associative, unified L2 cache,• Hardware prefetching for L2 and interface logic to the front side bus.
Большинство инструкций переводятся в 1 мюопс5% инструкций требуют разбивки на мюопсыРазбивка на мюопсы не дает особых преимуществ на in order