0. Вступительный филинизм.
В одной очень далекой галактике жили-были старые процессоры. Они нормально работали при температуре человеков 36,6, умели считать и писать, а памяти кушали всего 640 Кб. Но пришли большие корпорации, параллельные вычисления, геймеры, юзеры, майнеры… И бездна техничекого прогресса медленно поглотила старое железо. Новые солдаты высокоскоростных вычислений заковались в броню радиаторов, вентиляторов, СЖО и, в какой-то момент, +60 градусов - стали нормальной рабочей температурой. Высокие технологии, культура богатая, а теперь еще каленый кремний в цветах RGB-вентиляторов. Кроме того, покупка/продажа комплектующих на вторичном рынке тоже - давно уже стала новой реальностью. Думаю, рассматривать очевидное нет смысла, согласны?
Интересно другое, а как полупроводники, в целом, относятся к температурам? Год майнинга в подвале с температурой +85 - это нормально или много? С чего бы кремнию в микросхемах стареть - это ж песок? Так посмотреть, камешки в Сахаре тысячелетиями лежат на жаре и ничего им не делается. Ответы на эти вопросы кроются где-то в глубинах современной физики. Лезть туда не будем - все равно ничего не понятно, но заглянуть за шторку, наверное, будет любопытно. Точных цифр не обещаю, но, уповаю на то, что выводы в конце окажутся достойными внимания.
Дабы ход моей мысли прослеживался четче, я сочинил мнемонический стишок, на мотив "Дом, который построил Джек".
Вот карта,
Которая майнит Койн.
А вот перегретая память,
Которая нАчала медленно таять,
Внутри карты
Которая майнит Койн.
А это подложка,
Которая закипает немножко,
В памяти,
Которая хочет с концами растаять,
В жаре GPU,
Которая майнит Койн.
А это транзистор мосфетный,
Который не может в сигнальчик дискретный,
В подложке,
Что кипит уж совсем не немножко,
В памяти,
Что готова вокруг все расплавить,
Внутри карты,
Которая майнит Койн.
Вот запрещенная зона,
Которая в дырках от электронов,
Сломала транзистор мосфетный,
Который пьян уж совсем не дискретно,
В подложке,
Которая окосела немножко,
В памяти,
Где уже нечему таять,
В карте,
Которая майнит Койн.
И, наконец, вот электроны,
Которым в кристалла узлах не сидится спокойно,
Который хранит запрещенную зону,
Которая в дырках от электронов,
Сломала транзистор немного мосфетный,
Которой просрал все сигналы дискретно,
В убитой жарой усталой подложке,
Которая “хрусть!” - совсем не немножко,
Которая держит подохлую память,
Где ничего не осталось дербанить,
В карте,
Которая смайнила Койн.
Хей хо…
1. Квантовые сказки.
Сейчас будет немного квантовой физики для домохозяек. Причем «домохозяйкой» в этой главе, буду я дорогой читатель. Никогда до этого расследования не парился над вопросом, почему горят компоненты. Производитель в документации сказал 0…+85 - “это коммершл грейд”, так и используем. В потоке разработки электроники на таких вещах внимание уже поздно заострять.
Вначале была частица. И частицей был электрон. И нельзя было его узреть, потому что размеры меньше длины световой волны. Понюхать, пощупать и куснуть тоже - господин Гейзенберг “запретил” принципом неопределенности. Даже осознать трудно, потому что если захочется его словить, то он, вдруг, не частица, а волна, посему может находиться в нескольких точках сразу. Ученые придумали, что делать с этим безобразием (зацените каламбур: “без-образием”) и описали его поведение волновой функцией. Это некая математическая абракадарбра, которая учитывает координаты в пространстве и время, выдавая на выходе плотность вероятности пребывания наших маленьких квантовых друзей. Волновые функции получаются решением уравнения Шредингера. Еще более непонятная математическая кадабра, суть которой, полагаю, в поиске энергетического баланса. В этом есть особая прелесть фундаментальной физики: многие ее разделы, довольно часто базируются на нескольких простых (только в записи) уравнениях, которые человечество может осмыслять целую вечность)) Понятное дело, найти решения Шредингера без аццкого матана невозможно, но угадать характер, вполне вполне… Господа Бор и Резерфорд постулировали, что в атомах у электронов есть орбиты. Значит они “вращаются” по кругу с некоторой частотой. А за периодику в матане отвечают тригонометрические функции. Которые, после некоторых подстановок, вырождаются до условного набора чисел называемого дискретным спектром (что отсылает нас к тому, что электроны не “вращаются” по кругу, а скорее присуствуют в его пространстве с определенной вероятностью). Или, также, уровнями разрешенных энергий. Они кратны числу Планка. Первое правило числа Планка - ничто не может быть меньше числа Планка.
Безусловно, лучше всего физический сумбур развеивают “Фейнмановские лекции по физике”. Великий маэстро, жонглируя восхительно простыми концепциями, толкует очень сложные процессы. На картинке сверху - опыт из третьего тома (глава 37, п.2.). Пули - электроны, 1,2 - контрольные отверстия в стенах, P1,P2,P12 - вероятности. Вам такая трактовка ничего не напоминает?
Следующий вопрос в этой смысловой лестнице: “А что там с электронами в веществе?” Ответом на него занимается “Зонная теория”. Она говорит, что твердое тело - это кристалл, в котором много атомов, и, соотвественно, так много электронов, что все их уровни разрешенных энергий сливаются в сплошные зоны. “Зона проводимости” - это… хмм… абстрактную часть концепции я, простите, не понял. Слишком сложный физон. В некотором приближении, это тоже энергетический диапазон, позволяющий носителям заряда перескакивать с орбитали на орбиталь. В “валентной зоне” все чуть попроще - электроны “привязаны" к атомам, им норм. Вся эта история интересует ради картинки ниже.
На ней уже все более менее понятно. В металлах эти две зоны перекрываются, что позволяет с минимальными усилиями передавать электрический сигнал. Довольно давно, я представлял себе медный провод чем-то вроде “трубы для электронов”. Типа, они, как вода, летят под воздействием напряжения из одного конца в другой. Похожие аналогии приводят все “простые” учебники для электриков. На самом деле, все оказалось наоборот. В этой трубе кулоновские безобразники стоят в ряд схватив друг друга за руки, и при появлении потенциала передают “рукопожатие” соседу “волной”. А электрон который влез в эту цепь со стороны питания, выталкивает другой электрон со стороны нагрузки. Где-то здесь и появляется проводимость со скоростью света, но при этом сами носители ленивы и малоподвижны. Чем то похоже на Московские дороги: огромное число людей приезжает на свои работы, но, одновременно, все стоят в пробках. МКЭД - Магия Квантовой ЭлектроДинамики.
В тот момент, когда я это понял, многие мысли в голове заняли свои места. Например, в кружочек расселись высокочастоные явления (КСВ, переотражения, согласование импедансов, теория антенн). Хотите маленькую проверку? Не заглядывая в википедию, попробуйте угадать,что будет если подключить кусок провода к генератору сигналов и подать одиночный импульс? И чем это похоже на линейку, край которой прижали пальцем к школьной парте и сделали "труньк"?
С диэлектриками тоже все понятно: по дефолту, электронам так хорошо с атомами, что надо прикладывать ощутимые мощности для поднятия сигнальной "революции". Может ли пластик проводить? Конечно, дайте пару миллионов вольт и получите восхитительные “фигуры Лихтенберга”.
Полупроводники - находятся посередине, между изоляторами и проводниками. Ваш, капитан очевидность)) Хотя сама концепция уже не настолько прозрачна. Как следует из текста выше, зоны валентности и проводимости не скрещиваются, но энергетический зазор между ними достаточно маленький. Это значит, что, по умолчанию: наш кремниевый друг ведет себя почти как изолятор. Стоит подкинуть немного энергетических дровишек и он переметнется на сторону проводников. Соль в том, как именно подкидывать.
Фоторезисторы - это чистый полупроводник под стекляшкой. Подсыпая фотонов можно почти линейно уменьшать его сопротивление, т.е. измерять освещенность.
Термисторы - то же самое, только сопротивление изменяется в зависимости от температуры. Причем, в разных версиях, зависимость может иметь прямой или обратный наклон.
Примесные полупродники - это и есть кирпичи современной электроники. Они заслужили свое “полу-” потому что проводят ток только в одну сторону. Допустим валентность кремния равна 4, это значит он может образовать 4 связи. Что бы кристалу не было скучно, к нему подсаживают пятивалентного соседа. При таком раскладе может образоваться 4 связи и “болтающийся” электрон, который и станет носителем заряда. В этом случае говорят о полупроводнике “N-типа” (Negative). Если сосед окажется трехвалентным, то образуется три связи и “дырка” от электрона.
В квантовой физике “рисунок ключа” тоже канает. Дырки равно или поздно утащат к себе электрон, но внешне это выглядит, как проводимость наоборот или “P-тип” (Positive).
2. Пластмассовый мир победил. MOSFET оказался сильней.
В этой части представления, мы таки доходим до MOSFET-транзисторов. Это главный переключатель в структуре любой микросхемы. Он состоит из легированной подложки (Substrate) - которая и есть кристалл примесного полупроводника. В нее воткнуто два провода, один Сток “Drain”, второй Исток “Source”. В обычном состоянии - это просто кирпич, ничего не проводит, ему на все фиолетово. Энергетические дровишки тут подкидываются через изолированный окислом затвор “Gate”. Поскольку прямого контакта с подложкой нет, ток нужен очень маленький. Говоря ближе к науке, электрическим полем на затворе мы сообщаем заряд в подложку индуцируя в проводящее состояние. То есть система, вообще говоря, работает, как конденсатор, хотя концепция прослеживается такая же, как у вакуумного триода в моей статье про Outer Worlds. Маленьким сигналом на затворе можно рулить конскими мощностями между Сток-Истоком.
Вся эта физическая физика нужна была для подводки к началу расследования. Первый же запрос в гугле на тему деградации полупроводников вывел на замечательную статью российских ученых по воздействию температуры на MOSFET-структуры.
Позволю себе украсть на цитату кусочек абзаца из мотивационной части. Все равно лучше не скажу.
При длительном хранении МОП интегральных микросхем (ИМС) происходит накопление дефектов и, как следствие, деградация электрических характеристик, таких как пороговое напряжение, крутизна и т. д. Одними из таких дефектов являются поверхностные состояния (ПС), которые образуются в приповерхностной области полупроводника.
Один из основных механизмов образования ПС является разрыв напряженных валентных связей согласно реакции вида Si−Si + h+ → Si • +Si, где h+ — свободная дырка, Si• — трехкоординационный кремний с одной болтающейся связью. При разрыве напряженной валентной связи Si–Si возникает энергетический уровень в запрещенной зоне полупроводника, на который может захватываться заряд, что приводит к деградации МОП ИМС.
За кадром этой цитаты, сказано, что вообще-то полупроводники - ребята очень нежные: радиация, температура и прочие жесткие условия эксплуатации их портят. Если кристал получает микроповреждение, а точнее - атом кремния на нем теряет связь, то он не будет размениваться электронами, как задумано. А как мы помним из физической сказки выше, попадание электрона в “запрещенную зону” не допустимо. Это значит А) у нас появился электронный паразит там где не нужно, и Б) в том месте, где он должен сидеть, осталась “дырка”. Концентрация начинает куда-то смещаться. Насколько я понял статью, не сама концентрация, а общие границы зон “валентной" и "проводимости”. Внешне это проявляется, как изменение передаточной характеристики транзистора, т.е. его параметры "уплывают". В терминологии MOSFET одним из ключевых значений является пороговое напряжение (V threshold). Это минимальное количество вольт потенциала, которое надо повесить затвор, что бы транзисторная подложка начала поводить (или не закончила). Т.е. MOSFET начал бы “приокрываться” (или наоборот, приближаться к "отсечке").
Так вот, господа авторы статьи провели классический эксперимент на какой-то отечественной микросхеме логики К1526ЛП13, у которой на кристалле много соединенных MOSFET-транзисторов.
В качестве ускоряющего фактора использовалась температура T = 140 C. Испытания проводились в термостате в пассивном электрическом режиме. После выдержки при повышенной температуре в течение определенного отрезка времени образцы охлаждались 24 ч и проводились измерения сток-затворной характеристики при комнатной температуре.
На основании этих опытов они вывели некий “коэффициент устаревания” (это моя трактовка, официально он звучит как "скорость образования ПС") с размерностью 1/час. Для испытуемой микросхемы он получился, примерно, 0,00037 1/ч. Это может значить, что через полторы тысячи часов напряжение необходимое для открытия транзистора на кристалле уже удвоится. К чему это может привести? Ну остальная часть схемы не факт что знает о перегретом чипе, и могут полезть ошибки переключения. Как определить логические уровни “0” и “1”, когда все параметры рандомно уехали вверх?
3. Математические закидоны.
Вообще говоря, величина 1/ч - довольно абстрактна. Закономерный вопрос, как из нее можно вытянуть что-то аналитическое? Здесь на помощь приходит математика соотношений. Мне кажется уместным процитировать вывод статьи (это послений раз на сегодня, клянусь):
В работе была представлена физическая модель процесса старения МОП-структуры и расчетно-экспериментальным путем получена энергетическая характеристика структуры (уровень энергии напряженных связей), которая определяет кинетику процесса накопления ПС. Полученные значения уровней энергии напряженных связей от МОП и биполярных ИМС практически одинаковы (−1.18 и −1.14 эВ), и можно предположить, что уровень энергии напряженных связей для любых ИМС лежит в этих пределах.
Если “для любых”, то можно попробовать проделать следующую уловку:
- Взять формулу рассчета скорости старения в зависимости от температуры (из статьи). Ее большую часть составляют физические константы. А температурные данные для 140 градусов Цельсия взять из практической части в соседней главе (статьи).
- Затем применить эту формулу второй раз, но изменить значение температуры, скажем, на 130 С.
- Посчитать отношения скоростей старения. При этом длинные хвосты из констант сократятся, а результат покажет нам, насколько разница в температуре повышает износ чипа.
Может звучать сложно, но это вполне элементарная алгебра средней школы. Как говорится: смотрите картинку - следите за руками.
Руководствуясь соображением выше, сначала сравниваем скорость образования дефектов при 130С и 140С, и получаем ускорение деградации кристалла в 2,33 раза. (Смотрите отношение Ratio1.) Возможно, вы слышали эмпирическое радиолюбительское выражение: "повышение рабочей температуры на 10 градусов сокращает срок службы микросхем в 2 раза". Кажется, эта формула неплохо с ним бьется. Но, конечно, видеокарты на таких температурах не работают, поэтому следующая формула для w85 - фактически перенормирует рассчеты к значениям предельного рабочего нагрева допускаемого производителем оперативной памяти GDDR6. От этого значения откладываем 10 градусов вверх - это такие условия при которых память еще будет работать, но процессор обязан применить “понижающие” санкции для выживания системы. Затем отложим 10 градусов вниз. Ну что такое 75С - почти обычная работа под нагрузкой в какой-нибудь RDR2. Теперь еще дополнительно взглянем на гарантийное соглашение от Nvidia.
В данном случае видеокарту можно рассмотреть, как неделимый продукт. Это значит, производитель гарантирует 3 года работы каждого компонента, при максимальной коммерческой температуре 85С. Вводя наши вычисленные коэффициенты, получаем, что где-то в паралельной вселенной, при температуре 95С: гарантия должна действовать что-то типа: 3 / 2,941 = 1,03 года. А в другой параллельной вселенной при 75С: 3 * 3,085 > 9 лет!! Фантастика? Да не особо, в том смысле, что за 5 лет все равно железо морально устареет.
В моем личном опыте (он, безусловно, не репрезентативен) - ни одна видеокарта не сгорела. А это линейка из: MX440, 8400GS, HD6870, сдвоенная печь GTX580, GTX1080. А GTX580 - это была реально печь, с нормальной рабочей температурой 90+. У меня так же был опыт покупки двух GTX1080 после майнинга у доверенного лица - и все работают, как новые (хоть и перепроданы, потому что со SLI - не сложилось). Поэтому, хочется послушать чужие истории. Если вам не сложно: расскажите, где покупали подержанные видеокарты и какие впечатления от использования. А если вдруг, здесь есть владельцы небольших ферм, будет просто суперинтересно узнать срезку по скорости износа "из первых рук". Если не жалко, конечно.
4. Заключение. Пару слов о результатах.
Отдельно акцентирую внимание: сверху - не абсолютные цифры. Они не учитывают множества других факторов и не претендуют на точность. Делая такие выводы, мы просто переходим от абстракций, типа: “нуу, видеокарту греть плохо” к эмпирике: “хоть бы год протянула в конских условиях”.
Выводы сверху (и чужие, и мои) могут быть справедливы для любых полупроводников: проц, память, силовые транзисторы, т.е. для всего что на кремниевой структуре. Только в зависимости от специфики чипа, нужно рассмотреть еще уйму дополнительных условий.
Хочу отметить, исходный план статьи был в 4 раза длиннее. Позвольте, показать.
Формально хороших научных источников по перегреву нашлось аж 4 пдф-ника. Я их все прочитал, кое-где провикипедировал новую терминологию, раскопал стандарты иии… оставил на потом. Принцип Оккама. Материал итак перегружен, 16000 слов - это лишнее. Поэтому - до скорых встреч. Еще увидимся на просторах железных разделов Stopgame.ru.
Лучшие комментарии
Перегрев Комментатора.
Погоди, погоди. У тебя прям смешались в кучу кони-люди)) Я со всем согласен, но тут надо отделить мух от котлет.
1) Внешние причины пробоя — да, плохая пассивка, некачественный теплоотвод. Пыль во всех щелях, ссохшаяся термопаста, дешевые х5r диэлектрики — и т.д. Система с отрицательной обратной связью(по температуре) доводится до края, связь становится положительной и она сама себя уже догреет до углей. Я оставил это для какой-нибудь будущей статьи, просто потому что столько печатать — кнопки из клавы вывалятся))
2) Внутренние причины отъезда мосфета — тепловой или лавинный пробой. Но, опять же, для свежевключенного транзистора энергии надо прокачать конские. Даже в древнющих IRFP было под джоуль. Истории, про то как взрывать транзисторы на плате — это обьем материала на еще одну статью. Не уверен, даже что релевантную для SG. Тут каким-нибудь хабром попахивает))
3) Конечно, конские энергии могут не понадобится, если фет уже замучен. Если подложка накопила дефектов в китайском подвале — дело остается за малым — воткнуть ее в пыльный системник на полу и запустить rdr на максималках)) Собственно, про эту «тепловую память» материал и получился.
4) Кроме того, GDDR — это ж матрица конденсаторов. У нее надо рассмотреть отдельные эффекты, типа сокращения времени удержания заряда. Тянет уже на 4-ую статью))
5) Еще некоторые производители — дают boundary scan и возможность полазить через сервисные порты в режиме дефектоскопа. Да и в принципе — если знать куда смотреть на плате — можно делать беглые выводы в особо запущенных случаях. Но это уже 5-ая статья.
Пожалей)) 16000 слов — это скорее преуменьшение. Тут уже встает вопрос — а нужно ли все это в таком объёме и сразу))
И в общем, чутье меня не подвело: сутки, считай, прошли — просмотров нет, блог скорее всего останется в котле. Это явно указывает на то что тема не зашла, надо смещаться обратно к играм, а философию железок пока отложу))
Отдельное спасибо за такой развернутый ответ. Можно узнать, где работаешь? Сервисник, FAE, проектироващик?))
Спасибо, друже))
С каждой статьёй всё интересней и интересней. Автор, не забрасывай это дело, у тебя очень хорошо получается писать - информативно и не скучно.
Поэтому, с нетерпением жду новых материалов)
Немножко работаю в небольшом «компьютерном» сервисе в свободное от остальной работы время.
Весь этот сумбур для того, что у читателя может сложиться впечатление, будто бы деградация мосфетов — серьёзная проблема. Однако, это довольно редкая поломка и чаще всего встречается при «ошибках» проектирования в устройствах эконом класса, где просто компоненты подобраны «впритык» к требованиям.
Надо бы тему развернуть, но уж очень она обширная. Деградацию кристаллов (в том числе и в мосфетах) обсуждают десятилетиями. Проблема в том, что хоть наличие явления самого по себе мало кто отрицает, но вот его реальное влияние под вопросом. Практика не в лабораторных условиях, когда мучают отдельно взятые транзисторы, а на живую, с полноценными устройствами не показывает вообще ничего. Вроде бы и есть такие поломки, но они исчезающе редки.
Если с демонстрацией, оценят везде. Красиво ведь. )
Быстро отвечаю на вопрос: полупроводники в целом и являются источниками этих температур при прохождение через них электрического тока. Внутреннее сопротивление преобразует электрическую энергию в тепловую, ваш кэп.
На самом деле статья интересная и было приятно вспомнить некоторые термины из радиотехники и электроники. Жаль только что я уже всё позабывал и просчитать ничего из статьи не смогу.)
Надо уточнить, что если у кого-то дохла видеокарта и он подумал, что вот она, рыба моей мечты! «Постаревший» мосфет причина всех бед — то это очень вряд ли. Смерть мосфета, как правило следствие другой поломки. Пробой диода, потеря ёмкости конденсаторов, критичный перегрев, в конце концов, от которого мосфет умрёт сразу. Скорее всего причина будет комплексной — высокие пульсации от БП, повышенный нагрев — от этого пострадают более нежные компоненты, а потом уже нарушения в работе скажутся и на чём-то посерьёзнее. С самым главным инженерным транзисторным чудом — процессором, явная деградация тоже очень редкая вещь. Тот же знаменитый страшный «отвал», вот именно что отвал и есть. У процессора буквально нарушается непосредственное соединение ногами (шарами) с платой. При этом, как правило, сам камень остается вполне себе живым.
Ну и ещё можно изучить директиву ROHS. В частности применение бессвицовых припоев. Сильно подозреваю, что это весьма серьёзно отразилась на долговечности электроники.