Tag Archives: #ceph #linux #storage #fstab #mount #troubleshooting #netz-guru

Ceph Mount Problem: „No MDS server is up or the cluster is laggy“ – die wahre Ursache!


🔍 Das Problem

Neulich hatte ich ein kurioses Problem beim Mounten eines CephFS-Volumes.
Eigentlich nichts Besonderes – bis plötzlich beim Einbinden folgende Fehlermeldungen im Kernel-Log auftauchten:

libceph: auth protocol 'cephx' mauth authentication failed: -13
ceph: No mds server is up or the cluster is laggy
mount error: no mds server is up or the cluster is laggy

Klingt nach einem kaputten MDS oder einem überlasteten Cluster, oder?
Das dachte ich auch – bis sich herausstellte, dass der Fehler ganz woanders lag.


⚙️ Symptome & Fehlersuche

Beim manuellen Mount-Versuch mit:

mount -t ceph 10.0.0.101,10.0.0.103,10.0.0.105,10.0.0.108,10.0.0.111:/kubernetes/K00XXXXXX /mnt \
  -o name=client.K00XXXXXX,secretfile=/etc/ceph/client.K00XXXXXX.secret

oder über /etc/fstab bekam ich immer denselben Fehler.
In dmesg und strace tauchte zusätzlich auf:

mount(..., "ceph", ..., "name=client.K00XXXXXX,...") = -1 EHOSTUNREACH

Der Ceph-Cluster selbst war aber völlig gesund:

ceph -s

zeigte ein sauberes

cluster: HEALTH_OK

Also kein Netzwerkproblem, kein kaputtes MDS, kein Latenzthema.
Aber der Mount verweigerte weiterhin den Dienst.


🧩 Die eigentliche Ursache

Nach einer Weile Debugging kam der entscheidende Aha-Moment:

Das Problem lag am Parameter name in der fstab!

Der Ceph-Mount-Helper setzt nämlich automatisch das Präfix client. vor den Namen.
Wenn man also in der /etc/fstab folgendes einträgt:

name=client.K00XXXXXX

dann interpretiert Ceph das intern als:

client.client.K00XXXXXX

Und genau dieser Benutzer existiert natürlich nicht.
Das Ergebnis: auth-Fehler (-13) und die irreführende Fehlermeldung „No MDS server is up or the cluster is laggy“.


✅ Die Lösung

In der /etc/fstab darf also kein client.-Präfix enthalten sein.
Korrekt sieht es so aus:

10.0.0.101,10.0.0.103,10.0.0.105,10.0.0.108,10.0.0.111:/kubernetes/K00XXXXXX  /mnt  ceph  name=K00XXXXXX,secretfile=/etc/ceph/client.K00XXXXXX.secret,_netdev,noatime  0  2

Danach reicht ein einfaches:

mount -av

und das Volume wird sofort erfolgreich eingebunden. 🎉


🧹 Optional: alte Keys löschen

Wenn du zuvor mehrfach falsche Mounts versucht hast, kann es helfen, alte Keys zu löschen:

keyctl show
keyctl clear @s

Dadurch wird der Kernel-Keyring geleert.


💡 Fazit

Wenn CephFS beim Mounten mit „No MDS server is up or the cluster is laggy“ scheitert,
liegt das nicht immer am Cluster selbst – manchmal ist es nur ein kleiner Parameterfehler in der fstab.

Diese Falle ist besonders tückisch, weil der Fehlertext völlig in die falsche Richtung zeigt.
Aber: wieder was gelernt – und vielleicht erspart euch dieser Beitrag ein paar Stunden Fehlersuche. 😉


🧠 TL;DR

  • Ceph mount schlägt fehl mit
    auth protocol 'cephx' ... failed: -13
  • Kein Problem mit MDS oder Netzwerk
  • Schuld war name=client.<user> in /etc/fstab
  • Lösung: name=<user> ohne Prefix client.

🔗 Nützliche Befehle zum Debuggen

# Clusterstatus prüfen
ceph -s
ceph fs status
ceph mds stat

# Mount testen (Userspace-Client)
ceph-fuse -m 10.0.0.101,10.0.0.103,10.0.0.105,10.0.0.108,10.0.0.111 /mnt \
  -n client.K00XXXXXX --keyring /etc/ceph/ceph.client.K00XXXXXX.keyring -f

📚 Tags

#ceph #linux #storage #fstab #mount #troubleshooting #netz-guru