Talent.com
Evaluation Scenario Writer - AI Agent Testing Specialist
Evaluation Scenario Writer - AI Agent Testing SpecialistMindrift • Cologne, NRW, DE
Es werden keine Bewerbungen mehr angenommen
Evaluation Scenario Writer - AI Agent Testing Specialist

Evaluation Scenario Writer - AI Agent Testing Specialist

Mindrift • Cologne, NRW, DE
Vor 30+ Tagen
Anstellungsart
  • Homeoffice
  • Quick Apply
Stellenbeschreibung

Please submit your CV in English and indicate your level of English proficiency.

Mindrift connects specialists with project-based AI opportunities for leading tech companies, focused on testing, evaluating, and improving AI systems. Participation isproject-based, not permanent employment.

What this opportunity involves

You’ll create challenging coding test cases that push AI coding systems to their limits:

  • Review and refine realistic coding tasks based on provided production codebases with realistic scope, requirements and information sources
  • Write comprehensive functional tests that validate actual end-to-end behavior and edge-cases, not just superficial checks
  • Craft “fair but hard” challenges where the AI has all the context it needs, but has to work for it (information scattered across files and external sources, complex reasoning required)
  • Analyze AI failures to understand what the model struggles with vs. what it masters
  • Iterate based on feedback from expert QA reviewers who score your work on 7 quality criteria

What we look for

This opportunity is a good fit for experienced developers, software engineers, and/or test automation specialists open to part-time, non-permanent projects. Ideally, contributors will have:

  • Degree in Computer Science, Software Engineering or related fields
  • 5+ years in software development, primarily Python (pytest, async/await, subprocess, file operations)
  • Background in Full-Stack development, with an equal focus on building React-based interfaces and robust Back-end systems
  • Experience writing tests (functional, integration – not just running them)
  • Docker containers (running evaluations locally in containers)
  • CI/CD understanding (GitHub Actions as a user: triggers, labels, reading results)
  • English proficiency - B2

How it works

Apply → Pass qualification(s) → Join a project → Complete tasks → Get paid

Effort estimate

Tasks for this project are estimated to take 20 hours to complete, depending on complexity. This is an estimate and not a schedule requirement; you choose when and how to work. Tasks must be submitted by the deadline and meet the listed acceptance criteria to be accepted.

Payment

  • Paid contributions, with rates up to $50/hour*
  • Fixed project rate or individual rates, depending on the project
  • Some projects include incentive payments

*Note: Rates vary based on expertise, skills assessment, location, project needs, and other factors. Higher rates may be offered to highly specialized experts. Lower rates may apply during onboarding or non-core project phases. Payment details are shared per project.

Jobalert für diese Suche erstellen

Evaluation Scenario Writer AI Agent Testing Specialist • Cologne, NRW, DE

Ähnliche Stellen
Praktikant AI Operations & Innovation (m/w/d)

Praktikant AI Operations & Innovation (m/w/d)

GOKIXX GmbH • Cologne, North Rhine-Westphalia, Germany
Quick Apply
GOKIXX ist die Plattform für die Fußball - Profis von morgen.Experten rund um digitalen Content und Fußball, das jungen Talenten eine exklusive.Plattform zur Verfügung stellt, um sie auf ihrem Weg ...Mehr anzeigen
Zuletzt aktualisiert: vor 21 Tagen
Senior Quantitative Algorithmic Energy Trader & AI Modelling (m/w/d)

Senior Quantitative Algorithmic Energy Trader & AI Modelling (m/w/d)

ESFORIN SE • Essen, Nordrhein-Westfalen, Deutschland
Quick Apply
Senior Quantitative Algorithmic Energy Trader & AI Modelling (m/w/d) bei ESFORIN SE | softgarden.Senior Quantitative Algorithmic Energy Trader & AI Modelling (m/w/d) .Teltow, Deutschland / Essen, D...Mehr anzeigen
Zuletzt aktualisiert: vor über 30 Tagen
Business Intelligence & Reporting Specialist (m/w/d)

Business Intelligence & Reporting Specialist (m/w/d)

Scopevisio AG • Bonn, Nordrhein-Westfalen, Deutschland
Quick Apply
Business Intelligence & Reporting Specialist (m/w/d).Business Intelligence & Reporting Specialist (m/w/d).SCOPEVISIO: Eine neue Softwaregeneration – cloudbasiert | integriert | automatisiert.Wir be...Mehr anzeigen
Zuletzt aktualisiert: vor über 30 Tagen
Senior Agentic AI Engineer* (m/w/d) - Projektmanagement, System Engineering / Admin, Consulting, Embedded Systems, Ingenieur

Senior Agentic AI Engineer* (m/w/d) - Projektmanagement, System Engineering / Admin, Consulting, Embedded Systems, Ingenieur

Accso - Accelerated Solutions • Köln, DE
LLMs, agentische Frameworks, Codegeneriergung und Testautomatisierung).Du analysierst komplexe Anforderungen und übersetzt diese in skalierbare Softwarelösungen.Beispielprojekte findest du unter.Du...Mehr anzeigen
Zuletzt aktualisiert: vor 3 Tagen • Gesponsert
Senior Search Engineer (all genders) - Elasticsearch

Senior Search Engineer (all genders) - Elasticsearch

Kaufland e-commerce • Cologne, North Rhine-Westphalia, Germany
Homeoffice
Quick Apply
Permanent Contract, Full-or Part-Time, Remote or Cologne / Düsseldorf / Darmstadt / Berlin.Kaufland: Several thousand sellers and millions of products make us one of the fastest growing online mark...Mehr anzeigen
Zuletzt aktualisiert: vor über 30 Tagen
AI Software Engineer (m/w/d) – Azure AI Foundry

AI Software Engineer (m/w/d) – Azure AI Foundry

Reply Group • Köln, de
AI Software Engineer (m/w/d) – Azure AI Foundry.Du möchtest nicht nur beraten, sondern steuern, strukturieren und Verantwortung übernehmen? Als Projektmanager (m/w/d) bei Cluster Dynamics Reply kan...Mehr anzeigen
Zuletzt aktualisiert: vor über 30 Tagen • Gesponsert
AI Specialist / AI Expert (m/w/d) – ideal für Quereinsteiger!

AI Specialist / AI Expert (m/w/d) – ideal für Quereinsteiger!

Syntex GmbH • Mülheim an der Ruhr, Nordrhein-Westfalen, DE
AZAV-zertifizierter Bildungsträger mit Fokus auf digitale Zukunftskompetenzen.Wir sind spezialisiert auf praxisnahe Trainings in App-, Web- und KI-Technologien.In unseren Programmen machen wir Mens...Mehr anzeigen
Zuletzt aktualisiert: vor 4 Tagen
KI Prompt Engineer/AI Consultant (m/w/d) – 100% remote

KI Prompt Engineer/AI Consultant (m/w/d) – 100% remote

mycareernow GmbH • Hilden, DE
Homeoffice
AZAV zertifizierter Bildungsträger mit klarem Fokus auf Projektmanagement und Künstliche Intelligenz.Unsere praxisnahen Weiterbildungen bereiten dich gezielt auf den nächsten Karriereschritt vor – ...Mehr anzeigen
Zuletzt aktualisiert: vor über 30 Tagen
Senior AI Projektmanager (m/w/d)

Senior AI Projektmanager (m/w/d)

Deutsche Telekom AG • Köln, de
Bei T-Systems bieten wir unseren Geschäftskunden die richtigen Systemlösungen für ihr digitales Business.Mit unserem Portfolio stellen wir sicher, dass digitale Transformation Komplexität reduziert...Mehr anzeigen
Zuletzt aktualisiert: vor 6 Tagen • Gesponsert
Senior Data & AI Engineer (m/w/d)

Senior Data & AI Engineer (m/w/d)

alphacoders • Cologne, North Rhine-Westphalia, Germany
Quick Apply
In exklusiver Zusammenarbeit mit unserem Partner, einem führenden Unternehmen im Bereich datengetriebener und KI-basierter Lösungen mit Fokus auf Azure- und Databricks-Technologien, suchen wir Dich...Mehr anzeigen
Zuletzt aktualisiert: vor 22 Tagen
Digital AI Specialist (m/w/d) – Zukunftsberuf im Büro & Projektumfeld (100 % remote)

Digital AI Specialist (m/w/d) – Zukunftsberuf im Büro & Projektumfeld (100 % remote)

Digital Beat GmbH • Köln, NW, DE
Homeoffice
Digital Beat ist ein nach AZAV zertifizierter Bildungsträger mit klarem Fokus auf Künstliche Intelligenz, Digitalisierung und zukunftssichere Büro- und Digitalberufe.Unsere Weiterbildungen sind pra...Mehr anzeigen
Zuletzt aktualisiert: vor 3 Tagen
Fullstack AI Engineer (Python, JS)

Fullstack AI Engineer (Python, JS)

DL Remote • Köln, Nordrhein-Westfalen, DE
Quick Apply
DL Remote is a talent network for remote-ready or relocation-supported jobs at outstanding companies.We are currently filling a key role as Fullstack AI Engineer (Python, JS) at a leading law firm....Mehr anzeigen
Zuletzt aktualisiert: vor 8 Tagen
Product Owner - AI (F/M/*)

Product Owner - AI (F/M/*)

amber • Cologne, North Rhine-Westphalia, Germany
Quick Apply
Stell dir vor, du hättest eine systemübergreifende KI-Plattform, mit der all dein Wissen zugänglich wird.Damit du dir dies nicht vorstellen musst, haben wir amber entwickelt.KI-basierte, unternehme...Mehr anzeigen
Zuletzt aktualisiert: vor 6 Tagen
Masterarbeit (w/m/d) - AI Fracture Analysis - Business Analysis, Forschung, Ingenieur

Masterarbeit (w/m/d) - AI Fracture Analysis - Business Analysis, Forschung, Ingenieur

Deutsches Zentrum für Luft- und Raumfahrt (DLR) • Köln, DE
Das Institut für Frontier Materials auf der Erde und im Weltraum bietet eine einzigartige Forschungslandschaft.Von Analysen auf atomarer Ebene über Parabelflüge bis hin zu Experimenten auf der ISS ...Mehr anzeigen
Zuletzt aktualisiert: vor 17 Tagen • Gesponsert
Masterarbeit (w/m/d) - AI Fracture Analysis

Masterarbeit (w/m/d) - AI Fracture Analysis

Deutsches Zentrum für Luft- und Raumfahrt e.V. (DLR) • Köln, de
Die Abteilung „Digital-integrierte Mikrostruktur und Mechanik“ entwickelt KI-gestützte Analyseverfahren, um das Schädigungsverhalten neuer Aluminiumlegierungen unter Ermüdungsbelastung besser zu ve...Mehr anzeigen
Zuletzt aktualisiert: vor über 30 Tagen • Gesponsert
Senior Product Designer (f/m/x) - Agentic AI & Platform

Senior Product Designer (f/m/x) - Agentic AI & Platform

ilert GmbH • Cologne, North Rhine-Westphalia, Germany
Quick Apply
Hybrid – Cologne (Rheinauhafen) — 3 days in the office, 2 remote.Redesign the "Immune System" of the Internet.When Spotify stops playing, Amazon can't process orders, or a bank's app goes dark - it...Mehr anzeigen
Zuletzt aktualisiert: vor über 30 Tagen
Consultant (m|w|d) Strategy, AI & Product

Consultant (m|w|d) Strategy, AI & Product

Convidera GmbH • Köln, Nordrhein-Westfalen, Deutschland
Quick Apply
Consultant (m|w|d) Strategy, AI & Product bei Convidera GmbH | softgarden.Consultant (m|w|d) Strategy, AI & Product.Du willst datengetriebene Innovation nicht nur konzipieren, sondern bis zur Umset...Mehr anzeigen
Zuletzt aktualisiert: vor 21 Tagen
Junior AI Engineer (m/w/d)

Junior AI Engineer (m/w/d)

taod Consulting GmbH • Cologne, North Rhine-Westphalia, Germany
Quick Apply
Wir glauben an das Potenzial von Artificial Intelligence – als Innovationstreiber, Problemlöser und Gamechanger.Mit unserer AI-Expertise helfen wir Unternehmen, intelligenter zu entscheiden, effizi...Mehr anzeigen
Zuletzt aktualisiert: vor 19 Tagen